数据挖掘十大算法
文章平均质量分 92
国际权威的学术组织 ICDM2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART
Andy_shenzl
你看不懂的世界,背后都是原理
展开
-
关联规则python实现-mlxtend
之前介绍了关联规则的原理:传送门发现一个专门进行关联规则分析的python库:mlxtend下面进行简单的演示简单数据实现我们自己简单构造几个数据熟悉下retail_shopping_basket = {'ID':[1,2,3,4,5,6],'Basket':[['Beer', 'Diaper', 'Pretzels', 'Chips', 'Aspirin'],['Diaper', 'Beer', 'Chips', 'Lotion', 'Juice', 'BabyFood', 'Milk'],原创 2020-05-21 11:01:26 · 2115 阅读 · 0 评论 -
SVM的原理及python实战
SVM是英文Support Vector Machine首字母缩写,中文名支持向量机。是机器学习领域最顶尖的存在,应用领域广、预测效果好,被誉为万能分类器,正是这样,SVM的理解和学习也比其他的算法要难一些。也是本人数据挖掘专栏的终结篇。为了能更好的让大家理解,这里我们对里面设计的知识点进行分解处理,所以在真正学习SVM之前,先介绍一下向量与平面、拉格朗日乘子法。一、向量与平面二、...原创 2020-03-14 16:27:10 · 1062 阅读 · 0 评论 -
话说-EM算法
EM算法是本人专栏-数据挖掘十大算法倒数第二篇因为EM算法推导过程比较复杂,所以我们把推导过程中相关的知识点都会做一个介绍,所以篇幅会比较长,具体的步骤如下:1、熵的相关知识2、从概率论到似然3、EM的引入及推导一、熵的相关知识1> 熵在我之前的文章溯源探幽--熵的世界里具体说过熵的由来,这里只做简单的引入熵的量化接下来从数据角度量化一下:...原创 2020-03-08 10:42:42 · 383 阅读 · 0 评论 -
CART算法解读
目录算法解读实例对比过程总结python实战数据处理画图预测验证参数解释数据挖掘十大算法之一1、算法解读CART分类树用的是另外一个指标 – 基尼指数. 假设一共有K个类,样本属于第k类的概率是pk,则概率分布的基尼指数定义为:基尼系数类似于熵,选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。不纯的程度越低,类分布就越倾斜。例如,类分布为...原创 2018-11-10 16:31:56 · 3030 阅读 · 0 评论 -
c4.5算法解读
目录一、熵的认识1、熵的概念2、信息熵公式推导二、ID3ID3过程:实例论证总结ID3缺点:三、C4.5C4.5算法优缺点分析C4.5算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和优化。所以要介绍C4.5算法,就要把ID3,以及ID3中设计的熵的概念一起进行讲解。关于熵的概念在溯源探幽--熵的世界文章中做了很详细的介绍,所以...原创 2018-11-09 20:33:24 · 4737 阅读 · 1 评论 -
Adaboost算法及python代码
Adaboost1、算法介绍 AdaBoost是最著名的Boosting族算法,同样也是数据挖掘10大算法之一。是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,然后把这些弱分类器集合起来,构造一个更强的最终分类器。算法本身是改变数据分布实现的,它根据每次训练集之中的每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的...原创 2018-09-02 14:44:46 · 2035 阅读 · 0 评论 -
KNN算法解读
一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。K近邻是一种基本分类与回归的方法可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居。为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙。或者,我们判断一个人的人品,只需要观察...原创 2018-09-21 09:14:07 · 16675 阅读 · 0 评论 -
贝叶斯算法及实例python实现
目录贝叶斯要解决的问题:为什么要使用贝叶斯:理解贝叶斯例子:计算过程:贝叶斯公式:贝叶斯公式推导 python经典取球实例: python拼写纠正实例:模型比较理论求解:argmaxc P(c|w) -> argmaxc P(w|c) P(c) / P(w)贝叶斯简介:贝叶斯(约1701-1761) Thomas Bayes,英国数学家贝叶...原创 2018-10-14 12:06:16 · 15256 阅读 · 5 评论 -
关联规则(Association Rules)原理分析及实例python实现
目录 1.关联规则 2.常见案例 3.置信度与支持度 什么是规则? (3) 支持度 (4) 置信度 (5) 最小支持度与频繁集 (6) 关联规则(7) 强关联规则 (8) Apriori算法挖掘频繁项集原创 2018-10-16 20:35:02 · 15122 阅读 · 0 评论 -
PageRank算法及python代码
目录1、核心思想2、基本概念3、模拟PageRank算法的运行过程4、简单PageRank算法5、终止点问题6、陷阱问题7、代码(python)简单代码: PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇...原创 2018-10-18 20:14:20 · 6800 阅读 · 1 评论 -
K-means算法及python sklearn实现
目录K-means算法前言K-Means算法的概述K-Means算法的基本原理K-Means与矩阵分解实例推演1、数据准备2、随机选取重心3、重新计算重心4、重复计算 K值的确定聚类评估:轮廓系数(Silhouette Coefficient )k-means的优缺点sklearn中对于kmeans算法的参数sklearn实例实现轮廓...原创 2018-10-23 19:46:26 · 16540 阅读 · 2 评论