秋无之地
大佬们点点关注,会回关
展开
-
Python算法:八大排序算法以及速度比较
Python算法:八大排序算法以及速度比较原创 2023-10-20 23:21:33 · 629 阅读 · 2 评论 -
深度学习实战:用Keras搭建深度学习网络做手写数字识别
今天我们用 keras 对手写数字进行了识别,具体的代码部分讲解的不多,其中涉及到 API,你可以参考下 Keras 中文手册。在这个过程里,我们只是使用了 LeNet 的网络模型,实际上 AlexNet、VGG、GoogleNet 和 ResNet 都是基于 CNN 的网络结构。在 CNN 网络中包括了卷积层、池化层和全连接层。一个基于 CNN 的深度学习网络通常是几组卷积层之后,再连接多个全连接层,最后再接 Output 全连接层,而每组的卷积层都是“卷积层 + →池化层?”的结构。原创 2023-10-12 09:56:40 · 244 阅读 · 8 评论 -
深度学习简述
今天我们大概了解了一下深度学习。深度学习也是机器学习的一种。我们之前讲解了数据挖掘十大经典算法,还有逻辑回归、随机森林算法等,这些都是传统的机器学习算法。在日常工作中,可以满足大部分的机器学习任务。但是对于数据量更大,更开放性的问题,我们就可以采用深度学习的算法,让机器自己来找规律,而不是通过我们指定的算法来找分类规律。所以深度学习的普适性会更强一些,但也并不代表深度学习就优于机器学习。一方面深度学习需要大量的数据,另一方面深度学习的学习时间,和需要的计算资源都要大于传统的机器学习。原创 2023-10-11 09:42:13 · 460 阅读 · 0 评论 -
数据挖掘实战(3):如何对比特币走势进行预测?
今天我给你讲了一个比特币趋势预测的实战项目。通过这个项目你应该能体会到,当我们对一个数值进行预测的时候,如果考虑的是多个变量和结果之间的关系,可以采用回归分析,如果考虑单个时间维度与结果的关系,可以使用时间序列分析。根据比特币的历史数据,我们使用 ARMA 模型对比特币未来 8 个月的走势进行了预测,并对结果进行了可视化显示。你能看到 ARMA 工具还是很好用的,虽然比特币的走势受很多外在因素影响,比如政策环境。不过当我们掌握了这些历史数据,也不妨用时间序列模型来分析预测一下。。原创 2023-10-11 09:26:56 · 1060 阅读 · 3 评论 -
数据挖掘实战(2):信用卡诈骗分析
今天我给你讲了逻辑回归的概念和相关工具的使用,另外学习了在数据样本不平衡的情况下,如何评估模型。这里你需要了解精确率,召回率和 F1 的概念和计算方式。最后在信用卡欺诈分析的项目中,我们使用了逻辑回归工具,并对混淆矩阵进行了计算,同时在模型结果评估中,使用了精确率、召回率和 F1 值,最后得到精确率 - 召回率曲线的可视化结果。从这个项目中你能看出来,不是所有的分类都是样本平衡的情况,针对正例比例极低的情况,比如信用卡欺诈、某些疾病的识别,或者是恐怖分子的判断等,都需要采用精确率 - 召回率来进行统计。原创 2023-10-10 09:26:52 · 414 阅读 · 2 评论 -
数据挖掘实战(1):信用卡违约率分析
今天我给你讲了随机森林的概念及工具的使用,另外针对数据挖掘算法中经常采用的参数调优,也介绍了 GridSearchCV 工具这个利器。并将这两者结合起来,在信用卡违约分析这个项目中进行了使用。很多时候,我们不知道该采用哪种分类算法更适合。即便是对于一种分类算法,也有很多参数可以调优,每个参数都有一定的取值范围。我们可以把想要采用的分类器,以及这些参数的取值范围都设置到数组里,然后使用 GridSearchCV 工具进行调优。。原创 2023-10-10 09:26:12 · 137 阅读 · 1 评论 -
数据可视化实战:如何给毛*易的歌曲做词云展示?
数据可视化实战:如何给毛*易的歌曲做词云展示?1、掌握词云分析工具,并进行可视化呈现;2、掌握 Python 爬虫,对网页的数据进行爬取;3、掌握 XPath 工具,分析提取想要的元素 。原创 2023-10-09 10:35:02 · 987 阅读 · 1 评论 -
数据采集实战:如何自动化运营微博?
数据采集实战:如何自动化运营微博?学会编写微博自动化功能模块:加关注,写评论,发微博;原创 2023-10-09 10:09:31 · 997 阅读 · 0 评论 -
AdaBoost(下):数据分析 | 数据挖掘 | 十大算法之一
今天我带你用 AdaBoost 回归分析对波士顿房价进行了预测。因为这是个回归分析的问题,我们直接使用 sklearn 中的 AdaBoostRegressor 即可。如果是分类,我们使用 AdaBoostClassifier。另外我们将 AdaBoost 分类器、弱分类器和决策树分类器做了对比,可以看出经过多个弱分类器组合形成的 AdaBoost 强分类器,准确率要明显高于决策树算法。所以 AdaBoost 的优势在于框架本身,它通过一种迭代机制让原本性能不强的分类器组合起来,形成一个强分类器。原创 2023-10-07 17:08:12 · 389 阅读 · 1 评论 -
AdaBoost(上):数据分析 | 数据挖掘 | 十大算法之一
AdaBoost(上):如何使用AdaBoost提升分类器性能?原创 2023-10-07 17:08:36 · 2584 阅读 · 0 评论 -
PageRank(下):数据分析 | 数据挖掘 | 十大算法之一
PageRank(下):分析希拉里邮件中的人物关系原创 2023-10-07 12:15:00 · 112 阅读 · 0 评论 -
PageRank(上):数据分析 | 数据挖掘 | 十大算法之一
PageRank 的算法原理,对简化的 PageRank 模型进行了模拟。针对简化模型中存在的等级泄露和等级沉没这两个问题,PageRank 的随机浏览模型引入了阻尼因子 d 来解决。同样,PageRank 有很广的应用领域,在许多网络结构中都有应用,比如计算一个人的微博影响力等。它也告诉我们,在社交网络中,链接的质量非常重要。。原创 2023-10-07 07:45:00 · 496 阅读 · 1 评论 -
关联规则挖掘(下):数据分析 | 数据挖掘 | 十大算法之一
Apriori 算法的核心就是理解频繁项集和关联规则。在算法运算的过程中,还要重点掌握对支持度、置信度和提升度的理解。在工具使用上,你可以使用 efficient-apriori 这个工具包,它会把每一条数据中的项(item)放到一个集合(篮子)里来处理,不考虑项(item)之间的先后顺序。在实际运用中你还需要灵活处理,比如导演如何选择演员这个案例,虽然工具的使用会很方便,但重要的还是数据挖掘前的准备过程,也就是获取某个导演的电影数据集。。原创 2023-10-06 11:26:12 · 2482 阅读 · 2 评论 -
关联规则挖掘(上):数据分析 | 数据挖掘 | 十大算法之一
今天我给你讲了 Apriori 算法,它是在“购物篮分析”中常用的关联规则挖掘算法,在 Apriori 算法中你最主要是需要明白支持度、置信度、提升度这几个概念,以及 Apriori 迭代计算频繁项集的工作流程。Apriori 算法在实际工作中需要对数据集扫描多次,会消耗大量的计算时间,所以在 2000 年 FP-Growth 算法被提出来,它只需要扫描两次数据集即可以完成关联规则的挖掘。FP-Growth 算法最主要的贡献就是提出了 FP 树和项头表,通过 FP 树减少了频繁项集的存储以及计算时间。原创 2023-10-06 11:00:14 · 1050 阅读 · 0 评论 -
EM聚类(下):用EM算法对王者荣耀英雄进行划分
今天我带你一起做了 EM 聚类的实战,具体使用的是 GMM 高斯混合模型。从整个流程中可以看出,我们需要经过数据加载、数据探索、数据可视化、特征选择、GMM 聚类和结果分析等环节。聚类和分类不一样,聚类是无监督的学习方式,也就是我们没有实际的结果可以进行比对,所以聚类的结果评估不像分类准确率一样直观,那么有没有聚类结果的评估方式呢?指标分数越高,代表聚类效果越好,也就是相同类中的差异性小,不同类之间的差异性大。原创 2023-10-02 13:34:08 · 2937 阅读 · 5 评论 -
EM聚类(上):数据分析 | 数据挖掘 | 十大算法之一
EM 算法相当于一个框架,你可以采用不同的模型来进行聚类,比如 GMM(高斯混合模型),或者 HMM(隐马尔科夫模型)来进行聚类。GMM 是通过概率密度来进行聚类,聚成的类符合高斯分布(正态分布)。而 HMM 用到了马尔可夫过程,在这个过程中,我们通过状态转移矩阵来计算状态转移的概率。HMM 在自然语言处理和语音识别领域中有广泛的应用。在 EM 这个框架中,E 步骤相当于是通过初始化的参数来估计隐含变量。M 步骤就是通过隐含变量反推来优化参数。最后通过 EM 步骤的迭代得到模型参数。。原创 2023-10-02 13:21:06 · 1674 阅读 · 0 评论 -
K-Means(下):数据分析 | 数据挖掘 | 十大算法之一
K-Means(下):数据分析 | 数据挖掘 | 十大算法之一原创 2023-10-01 21:36:00 · 249 阅读 · 0 评论 -
K-Means(上):数据分析 | 数据挖掘 | 十大算法之一
K-Means(上):数据分析 | 数据挖掘 | 十大算法之一原创 2023-10-01 21:23:58 · 1527 阅读 · 2 评论 -
KNN(下):数据分析 | 数据挖掘 | 十大算法之一
KNN(下):数据分析 | 数据挖掘 | 十大算法之一原创 2023-09-29 20:12:21 · 1658 阅读 · 1 评论 -
KNN(上):数据分析 | 数据挖掘 | 十大算法之一
KNN(上):数据分析 | 数据挖掘 | 十大算法之一原创 2023-09-29 19:48:46 · 1146 阅读 · 1 评论 -
SVM(下):如何进行乳腺癌检测?
SVM(下):如何进行乳腺癌检测?原创 2023-09-28 15:44:58 · 844 阅读 · 1 评论 -
SVM(上):如何用一根棍子将蓝红两色球分开?
SVM(上):如何用一根棍子将蓝红两色球分开?原创 2023-09-28 15:32:02 · 993 阅读 · 2 评论 -
朴素贝叶斯分类(下):数据挖掘十大算法之一
朴素贝叶斯分类(下):如何对文档进行分类原创 2023-09-27 18:09:47 · 563 阅读 · 1 评论 -
朴素贝叶斯分类(上):数据挖掘十大算法之一
学会朴素贝叶斯分类,让机器帮你判断男女原创 2023-09-25 07:30:00 · 85 阅读 · 1 评论 -
决策树(下):泰坦尼克号乘客的生存预测(完整代码)
决策树(下):泰坦尼克号乘客的生存预测(完整代码)原创 2023-09-20 10:41:16 · 118 阅读 · 1 评论 -
决策树(中):数据挖掘十大算法之一
决策树(中):数据挖掘十大算法之一原创 2023-09-20 10:11:46 · 678 阅读 · 1 评论 -
决策树(上):数据挖掘十大算法之一
决策树(上):数据挖掘十大算法之一原创 2023-09-20 07:15:00 · 101 阅读 · 1 评论 -
超详细!一次学会Python数据可视化的10种技能
超详细!一次学会Python数据可视化的10种技能原创 2023-09-18 12:49:24 · 111 阅读 · 1 评论 -
数据可视化:掌握数据领域的万金油技能
数据可视化:掌握数据领域的万金油技能原创 2023-09-15 15:48:20 · 69 阅读 · 1 评论 -
数据变换:数据挖掘的准备工作之一
数据挖掘中数据变换比算法选择更重要原创 2023-09-15 11:43:20 · 787 阅读 · 1 评论 -
数据集成:数据挖掘的准备工作之一
数据集成:数据挖掘的准备工作之一原创 2023-09-15 10:56:45 · 2357 阅读 · 1 评论 -
数据清洗:数据挖掘的前期准备工作
数据科学家80%时间都花费在了这些清洗任务上?原创 2023-09-14 18:19:39 · 2045 阅读 · 1 评论 -
Python爬虫:如何下载懂车帝的电动车数据(完整代码)
Python爬虫:如何下载某车帝的电动车数据(完整代码)原创 2023-09-13 18:17:58 · 2153 阅读 · 2 评论 -
数据采集:数据挖掘的基础
数据采集:数据挖掘的基础原创 2023-09-13 17:05:34 · 1882 阅读 · 1 评论 -
用户画像的设计准则以及美团外卖用户画像的设计案例
详细讲述用户画像的相关知识,并提供经典实例:美团外卖的用户画像的设计原创 2023-09-11 17:38:13 · 442 阅读 · 0 评论 -
Pandas模块:Python科学计算神器之一
Pandas模块:Python科学计算神器之一原创 2023-09-09 10:40:54 · 161 阅读 · 0 评论 -
NumPy模块:Python科学计算神器之一
NumPy模块:Python科学计算神器之一原创 2023-09-07 16:05:13 · 152 阅读 · 0 评论 -
Python基础语法:数据分析利器
Python基础语法:数据分析利器原创 2023-09-07 13:05:37 · 922 阅读 · 1 评论 -
数据挖掘的学习路径
数据挖掘的知识清单原创 2023-09-07 11:03:43 · 2292 阅读 · 1 评论 -
数据分析综述
数据分析综述原创 2023-09-06 17:57:23 · 1656 阅读 · 3 评论