自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Python数据挖掘

传道授业解惑

  • 博客(494)
  • 收藏
  • 关注

原创 整理了上千个 Python 工具库,涵盖24个大方向

Python 生态,向来以各种类库齐全而闻名,这也是这门语言如此受欢迎的重要原因。今天就给大家分享一下这几天的战果,宵衣旰食,不眠不休的整理了近千个 Python 库,

2022-12-31 22:55:30 12725 13

原创 用通俗易懂的方式讲解:主成分分析(PCA)算法及案例(Python 代码)

在上面的PCA算法中,我们假设存在一个线性的超平面,可以让我们对数据进行投影。但是有些时候,数据不是线性的,不能直接进行PCA降维。这里就需要用到和支持向量机一样的核函数的思想,先把数据集从 n 维映射到线性可分的高维 N>n,然后再从N维降维到一个低维度 n’,这里的维度之间满足 n’ < n< N。使用了核函数的主成分分析一般称之为核主成分分析(Kernelized PCA,以下简称 KPCA。假设高维空间的数据是由 n 维空间的数据通过映射 Φ 产生)。

2022-10-06 12:36:41 2715

原创 用通俗易懂的方式讲解:lightGBM 算法及案例(Python 代码)

AdaBoost是一种提升树的方法,和三个臭皮匠,赛过诸葛亮的道理一样。(1) 如何改变训练数据的权重或概率分布提高前一轮被弱分类器错误分类的样本的权重,降低前一轮被分对的权重(2) 如何将弱分类器组合成一个强分类器,亦即,每个分类器,前面的权重如何设置采取”多数表决”的方法.加大分类错误率小的弱分类器的权重,使其作用较大,而减小分类错误率大的弱分类器的权重,使其在表决中起较小的作用。lightGBM是2017年1月,微软在GItHub上开源的一个新的梯度提升框架。

2022-10-05 12:58:52 2535

原创 用通俗易懂的方式讲解: xgboost 算法及案例(Python 代码)

把树拆分成结构部分q和叶子权重部分w。树的复杂度函数和样例:定义树的结构和复杂度的原因很简单,这样就可以衡量模型的复杂度了啊,从而可以有效控制过拟合。目标函数通过二阶泰勒展开式做近似定义了树的复杂度,并应用到目标函数中分裂结点处通过结构打分和分割损失动态生长分裂结点的候选集合通过一种分布式Quantile Sketch得到可以处理稀疏、缺失数据可以通过特征的列采样防止过拟合。

2022-10-05 12:37:04 1511

原创 用通俗易懂的方式讲解: GBDT算法及案例(Python 代码)

GBDT是Gradient Boosting Decision Tree(梯度提升树)的缩写。GBDT算法也是一种非常实用的Boosting算法,它与AdaBoost算法的区别在于:AdaBoost算法根据分类效果调整权重并不断迭代,最终生成强学习器;GBDT算法则将损失函数的负梯度作为残差的近似值,不断使用残差迭代和拟合回归树,最终生成强学习器。简单来说,AdaBoost算法是调整权重,而GBDT算法则是拟合残差。通过一个简单案例理解GBDT算法的核心思想。下表中有4个样本客户的数据,特征变量X1为年龄,

2022-10-05 12:14:06 1980 1

原创 用通俗易懂的方式讲解: 随机森林及案例(Python 代码)

集成学习模型使用一系列弱学习器(也称为基础模型或基模型)进行学习,并将各个弱学习器的结果进行整合,从而获得比单个学习器更好的学习效果。集成学习模型的常见算法有Bagging算法和Boosting算法两种。Bagging算法的典型机器学习模型为随机森林模型,而Boosting算法的典型机器学习模型则为AdaBoost、GBDT、XGBoost和LightGBM模型。Bagging算法的原理类似投票,每个弱学习器都有一票,最终根据所有弱学习器的投票,按照“少数服从多数”的原则产生最终的预测结果,如下图所示。

2022-10-05 11:31:30 3932

原创 用通俗易懂的方式讲解:决策树模型及案例(Python 代码)

基本原理是通过对一系列问题进行if/else的推导,最终实现相关决策。决策树模型的一个实例:决策树的概念并不复杂,主要是通过连续的逻辑判断得出最后的结论,其关键在于如何建立这样一棵“树”。

2022-10-05 11:08:08 2549

原创 用通俗易懂的方式讲解:逻辑回归模型及案例(Python 代码)

逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,最大的区别就在于它们的因变量不同,如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归。Logistic回归虽然名字里带“回归”,但它实际上是一种分类方法,主要用于二分类问题(即输出只有两种,分别代表两个类别),也可以处理多分类问题。

2022-10-05 10:25:33 2306

原创 基于 Echarts + Python 动态实时大屏真棒【附源码】

大家好,今天给大家分享,基于 Echarts + Python 动态实时大屏。

2022-09-29 22:28:51 634

原创 有人把吴恩达老师的机器学习和深度学习做成了中文版

近年来 AI 越来越火,吴恩达是被公认的人工智能(AI)和机器学习领域国际最权威的学者,他一直致力于普及、宣传、推广 AI 教育,包括最前沿、最火爆的 AI 基础课程、深度学习课程等等。惠及全球超过 500w 的人工智能爱好者。吴恩达的机器学习基本涵盖了机器学习的主要知识点:线性回归、逻辑回归、支持向量机、神经网络、K-Means、异常检测等。课程中没有复杂的公式推导和理论分析,让机器学习初学者能够快速对整个机器学习知识点有比较整体的认识,便于快速入门。吴恩达开设了5门课组成的深度学习专项课程,掀起了一

2022-02-17 09:34:57 4325 1

原创 pygal:一款好用到爆的 Python 可视化利器,炫酷动态图轻松绘制

一般提及数据可视化,会Python的读者朋友可能第一时间想到的就是matplotlib模块或者是seaborn模块,而谈及绘制动态图表,大家想到的比较多的是Plotly或者是Pyecharts。注:文末提供Python数据可视化交流群,群内高手如云今天小编来为大家介绍另外一个绘制动态图表的模块 pygal,使用起来非常的便捷,而且绘制出来的图表也是十分的精湛好看,相比较seaborn等常用的模块相比,该模块的优点有:高度可定制,而且用法简单图表可交互性强图像可导出SVG格式(矢量图形)

2021-12-11 14:05:03 13705 6

原创 DeepMind加持的GNN框架正式开源,TensorFlow进入图神经网络时代

谷歌在垃圾邮件检测、流量估计以及YouTube内容标签等环境中使用了一种强大的工具GNN(图神经网络)。11月18日,谷歌联合DeepMind对外开源TensorFlow GNN工具,助力流量预测、谣言和假新闻检测、疾病传播建模、物理模拟等领域的基础研究。11月18日,谷歌联合DeepMind发布了TensorFlow GNN(图神经网络)。目前,谷歌已经在诸如垃圾邮件检测、流量估计以及YouTube内容标签等环境中用上了这个库的早期版本。为什么要用GNN?图(Graph)是用于表示对象之间.

2021-11-23 14:01:52 2030

原创 超过53亿!《长津湖》为什么这么火爆?我用 Python 来分析猫眼影评

对于这个十一黄金周的电影市场,绝对是《长津湖》的天下,目前票房就已经突破53亿,大有奋起直追《战狼2》的尽头。而且口碑也是相当的高,猫眼评分高达9.5,绝对的票房口碑双丰收啊下面我们就通过爬取猫眼的电影评论,进行相关的可视化分析,看看为什么这部电影是如此的受欢迎,最后还进行了简单的票房预测,你一定不能错过哦,欢迎收藏学习,点赞支持,喜欢技术交流的可以文末技术交流群。数据获取猫眼评论爬取,还是那么老一套,直接构造 API 接口信息即可url = "https://m.maoyan.com/mmdb/

2021-10-25 22:15:35 1176 3

原创 10000+字,一篇不可多得的 Python 数据可视化 “保姆级“ 攻略!

今天让我们看一下使用Python进行数据可视化的主要库,以及可以使用它们完成的所有类型的图表。我们还将看到建议在每种情况下,使用哪个库以及每个库的独特功能。我们将从最基本的可视化开始,直接查看数据,然后继续绘制图表,最后制作交互式图表。我们将使用两个数据集来适应本文中显示的可视化效果,数据集可通过下方链接进行下载。数据集:github.com/albertsl/datasets这些数据集都是与人工智能相关的三个术语(数据科学,机器学习和深度学习)在互联网上搜索流行度的数据,从搜索引擎中提取而来。该数据集包含

2021-10-19 09:17:22 209

原创 面试必备:机器学习算法优缺点对比(汇总篇)

本文的目的,是务实、简洁地盘点一番当前机器学习算法。文中内容结合了个人在查阅资料过程中收集到的前人总结,同时添加了部分自身总结,在这里,依据实际使用中的经验,将对此模型优缺点及选择详加讨论。主要回顾下几个常用算法的适应场景及其优缺点!机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。

2023-05-18 23:30:09 465

原创 一文深度解读机器学习模型的评估方法

① 综合各类别的准确度:准确率accuracy对于分类错误情况的描述是比较直接的,但是对于正负例不平衡的情况下,accuracy评价基本没有参考价值,比如 欺诈用户识别的分类场景,有950个正常用户样本(负例),50个异常用户(正例),模型把样本都预测为正常用户样本,准确率是非常好的达到95%。但实际上是分类效果很差。

2023-05-18 23:24:14 131

原创 Python 数据分析指南(全)

数据分析是通过明确分析目的,梳理并确定分析逻辑,针对性的收集、整理数据,并采用统计、挖掘技术分析,提取有用信息和展示结论的过程,是数据科学领域的核心技能。本文从数据分析常用逻辑框架及技术方法出发,结合python项目实战全面解读数据分析,可以系统掌握数据分析的框架套路,快速上手数据分析。

2023-05-18 23:18:00 46

原创 一文全览机器学习建模流程(Python代码)

项目的实验数据来源著名的UCI机器学习数据库,该数据库有大量的人工智能数据挖掘数据。本例选用的是sklearn上的数据集版本:Breast Cancer Wisconsin DataSet(威斯康星州乳腺癌数据集),这些数据来源美国威斯康星大学医院的临床病例报告,每条样本有30个特征属性,标签为是否良性肿瘤,即有监督分类预测的问题。项目的建模思路是通过分析乳腺癌数据集数据,特征工程,构建逻辑回归模型学习数据,预测样本的类别是否为良性肿瘤。

2023-05-16 22:46:15 87

原创 逻辑回归优化技巧总结(全)

逻辑回归的拟合能力有限,当变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型拟合能力的同时,也有更好的解释性。而且离散化后可以方便地进行特征交叉,由M+N个变量变为M*N个变量,可以进一步提升表达能力。离散化后的特征对异常数据有较强的鲁棒性:比如一个特征是年龄>44是1,否则0。如果特征没有离散化,一个异常数据“年龄200岁”输入会给模型造成很大的干扰,而将其离散后归到相应的分箱影响就有限。

2023-05-16 22:42:08 82

原创 最频繁使用的5个 Python 装饰器

装饰器是 Python 中非常强大的功能,可以使我们更加灵活地修改函数的行为和功能。起初,每个 Python 开发者的目标都是让代码正常运行。慢慢地,我们开始担心可读性和可扩展性。这时候我们开始考虑装饰器。装饰器是给函数添加额外行为的绝佳方式。而且有些小东西数据科学家经常需要注入到函数定义中。使用装饰器,你会惊讶地发现可以减少代码重复并提高可读性。我当然也是。以下是我在几乎每个数据项目中都会使用的五种最常见的工具。

2023-05-14 11:43:47 398

原创 基于 Python+flask 构建态势感知系统(附完整源码)

适配linux,且由于作者水平有限,中间件只支持apache,确保linux用户权限为root,且安装有iptables防火墙命令(不需要告警可忽略iptables)如需修改,请修改install.py和config.py里的数据库密码和路径。方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:态势感知系统。

2023-05-10 21:50:18 128

原创 面试必刷 SQL 经典题目

大家好,SQL语句在工作与面试时都必不可少,下面我整理了20道题目供大家练习,常见的使用方法和开窗函数都有涉及,来测测你的sql技能是否过关。

2023-05-06 14:21:24 568

原创 超级香,分享8个相见恨晚的Python库

看到新奇又实用的第三方库,当然要分享出来咯~

2023-05-03 23:12:36 509 1

原创 Python实战项目:手势识别控制电脑音量

1)初始化mediapipe库。

2023-05-03 23:04:30 329

原创 这个 Chrome 插件,让你的 ChatGPT 不再报错

ChatGPT的官网最近几天报错越来越频繁了,相信大家都发现了。一旦你离开页面时间比较久,再度返回跟它进行对话,就会出现如下报错:虽然这个报错信息以前也出现过,但现在的频率确实过高,对于每天需要使用 ChatGPT 处理大量任务的用户来说,这种体验实在是不够友好。实际上,我们有两个方案来解决这个问题。

2023-04-30 09:11:11 2663

原创 4个 Python 库来美化你的 Matplotlib 图表

在本文中,我们看到了四个非常有用的matplotlib python库,它们可以让你的matplotlib图表更上一层楼。这些库中的每一个都为你的绘图提供了独特的样式。尽管这些样式提供了很好的创意可视化效果,但你也确实需要考虑你的受众。创建出色的数据视觉效果的全部意义在于让你的信息易于理解,并尽可能以最好的方式分享你的故事。

2023-04-18 23:56:57 513 1

原创 深度学习实战案例:基于 AutoRec 构建电影推荐系统( 附 PyTorch 版代码)

本文会介绍AutoRec模型的基本原理,包括网络模型、损失函数、推荐过程、实验结果等,并且会给出基于PyTorch的代码。AutoRec模型跟MLP(多层感知器)类似,是一个标准的3层(包含输入层)神经网络,只不过它结合其结合了自编码器(AutoEncoder)和协同过滤(Collaborative Filtering)的思想。其实再确切一点说,AutoRec模型就是一个标准的自编码器结构,它的基本原理是利用协同过滤中的共现矩阵,完成物品向量或者用户向量的自编码。

2023-04-18 23:33:47 268

原创 互联网公司面试最频繁考察的概率题汇总

在第i个数字的时候,这个数字要被选择的话又两种可能,一是第i个数没有被选中(概率是1-m/i),二是第i个数倍选中了(概率是m/i)但是替换掉的数字不是它(概率是1-1/m),于是这个数在第i个数时仍然被选择的概率是m/(i-1) * ((1-m/i) + (m/i * (1-1/m))) = m / (i-1) * ((i-1) / i) = m/i。现在来看剩下的前n-1个记录。即遍历到第i个数字的时候,如果此时已经选择了k个,则以(m-k)/(n-i+1)的概率决定是否要选择当前的第i个数字。

2023-04-15 20:43:16 443

原创 SQL 中最常用的四个排序函数,工作面试都用得到

ROW_NUMBER()是排序,当存在相同成绩的学生时,ROW_NUMBER()会依次进行排序,他们序号不相同,而Rank()则不一样。RANK()是1-1-3-4-5,而ROW_NUMBER()则还是1-2-3-4-5,这就是RANK()和ROW_NUMBER()的区别了。今天就给大家介绍四个你不怎么常用排序函数,他们就是排序中经常用到的ROW_NUMBER(),RANK(),DENSE_RANK(),NTILE()这四个好兄弟。上面是ROW_NUMBER()函数的结果,下面是RANK()函数的结果。

2023-04-11 22:30:18 59

原创 一文盘点最近特别火的 10 款惊艳的 AI 工具(附项目代码)

‍‍2023可以称得上是脑洞大开的一年!人工智能的风口由‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍OpenAI的ChatGPT率先引爆。今天,我们给大家推荐,欢迎补充!

2023-03-31 11:19:15 1754

原创 最强 Python 办公自动化之 PDF 攻略来了

Python 操作 PDF 会用到两个库,分别是:PyPDF2 和 pdfplumber其中PyPDF2可以更好的读取、写入、分割、合并PDF文件,而pdfplumber可以更好的读取 PDF 文件中内容和提取 PDF 中的表格对应的官网分别是:由于这两个库都不是 Python 的标准库,所以在使用之前都需要单独安装win+r 后输入 cmd 打开 command 窗口,依次输入如下命令进行安装:安装完成后显示 success 则表示安装成功。

2023-03-31 09:57:03 171 1

原创 又一个 Python 可视化“神器“,简单超有用

数据可视化动画还在用Excel做?现在一个简单的Python包就能分分钟搞定!而且生成的动画也足够丝滑,效果是酱紫的:这是一位专攻Python语言的程序员开发的安装包,名叫Pynimate。目前可以直接通过PyPI安装使用。

2023-03-30 22:50:47 142

原创 精选7个 Python 学习资源库,助你成为优秀的开发者

当你在学习编程时,很容易被大量的资源所吓到,不知道该从何开始。GitHub 仓库是一个很好的起点,因为它们提供了一种非常实用的方式来了解实际的编程应用。你可以查看其他人的代码,并将其与自己的代码进行比较和学习。当涉及到 Python 时,这些仓库提供了广泛的主题,从基本的语法到高级的数据分析和人工智能。在这些仓库中,你可以找到许多有趣的项目,如游戏、机器学习算法、网络爬虫、数据可视化等等。除了这些仓库之外,还有很多其他的编程资源可以帮助你提高编程技能,如编程博客、在线教程、编程书籍等等。

2023-03-25 00:18:25 1182

原创 又一款全新的基于 GPT4 的 Python 神器Cursor,关键还免费

chartgpt大火之后,随之而来的就是一大类衍生物了。然后,今天要给大家介绍的是一款基于GPT4的新一代辅助编程神器——Cursor。它最值得介绍的地方在于它,我们可以直接利用它来辅助我们编程,真正做到事半功倍。首先,我们先来简单看看这款编辑器的界面,非常简单、干净,毕竟也是新生的产物,界面没有那么复杂。目前支持JS和Python这两种语言。

2023-03-25 00:00:22 2648 7

原创 7个最受瞩目的 Python 库,提升你的开发效率

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t8PL9DLr-1679501196133)(https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/6be9ca3942964c68a0f4bf5c027ef31a~noop.image?当今时代,数据分析和处理已经成为了各行各业中不可或缺的一环。Python作为一种非常流行的编程语言,为我们提供了许多强大的工具和库来处理不同类型的数据。

2023-03-23 00:14:40 3311 2

原创 PyTorch 2.0正式版来了

为了充分利用不同的硬件模型和 Transformer 用例,PyTorch 2.0 支持多个 SDPA 自定义内核,自定义内核选择逻辑是为给定模型和硬件类型选择最高性能的内核。除了 2.0,研发团队这次还发布了 PyTorch 域库的一系列 beta 更新,包括 in-tree 的库和 TorchAudio、TorchVision、TorchText 等独立库。与之前的版本相比,PyTorch 2.0 提高了 Graviton 的推理性能,包括针对 ResNet-50 和 BERT 的改进。

2023-03-18 21:58:56 229

原创 10个最频繁用于解释机器学习模型的 Python 库

XAI,Explainable AI是指可以为人工智能(AI)决策过程和预测提供清晰易懂的解释的系统或策略。XAI 的目标是为他们的行为和决策提供有意义的解释,这有助于增加信任、提供问责制和模型决策的透明度。XAI 不仅限于解释,还以一种使推理更容易为用户提取和解释的方式进行 ML 实验。在实践中,XAI 可以通过多种方法实现,例如使用特征重要性度量、可视化技术,或者通过构建本质上可解释的模型,例如决策树或线性回归模型。方法的选择取决于所解决问题的类型和所需的可解释性水平。

2023-03-13 21:42:32 1588

原创 时间序列最常用方法总结(附代码)

🔴 平时工作中每天都在和时间序列打交道,对时间序列分析进行研究是有必要的🟡 分享和交流一些自己的在时序处理方面的心得,提供一些思路🟢 介绍时序的发展情况,以及目前业界常用的方法🔵 代码希望能模板化,能直接复制过去使用。

2023-03-12 21:31:35 310

原创 分享5种我使用最多的Python字典 “键“ 和 “值“ 排序的方法

可以使用 Pandas 库将字典转换为 DataFrame,然后按照指定的键或者值进行排序,最后将排序后的 DataFrame 转换为字典。可以使用 zip() 函数将字典的键和值分别转换为列表,然后按照指定的键或者值进行排序,最后将排序后的键和值重新组成字典。方式①、添加微信号:pythoner666,备注:来自CSDN +备注来意。

2023-03-12 21:01:34 421

原创 这10个 Python 可视化工具,太强了

Plotly 是一个交互式数据可视化库,可以绘制出高质量的折线图、散点图、3D 图形等等。Holoviews 是一个 Python 可视化库,可以创建交互式的数据可视化,支持多种类型的可视化图形,如折线图、散点图、柱状图、热力图等等。Plotnine 是一个基于 Python 的 ggplot2 库的可视化库,它可以创建高质量的数据可视化图形,如散点图、柱状图、线图等等。ggplot 是一个基于 R 语言中的 ggplot2 库的 Python 可视化库,可以绘制出高质量的散点图、柱状图、箱线图等等。

2023-03-06 22:08:57 373

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除