![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
pyStar_公众号
做技术,要胆大心细
展开
-
Apriori算法(关联分析算法)
Apriori算法Apriori算法是发现数据集中的频繁项集、及数据之间的关联规则。频繁项集:经常出现在一块的物品的集合关联规则:暗示两种物品之间可能存在很强的关系频繁项集看一个例子解释几个概念:频繁项集是指那些经常出现在一起的物品,例如上图的{葡萄酒、尿布、豆奶},从上面的数据集中也可以找到尿布->葡萄酒的关联规则,这意味着有人买了尿布,那很有可能他也会购买葡萄酒。那如何定义和表示频繁项集和关联规则呢?这里引入支持度和可信度(置信度)。支持度:一个项集的支持度被定义为数据集中包含原创 2020-06-12 10:09:00 · 763 阅读 · 0 评论 -
FP-Growth算法
FP-Growth算法FP-Growth算法用来高效发现频繁项集,但不能用于发现关联规则。FP-Growth算法只需要对数据进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此FP-Growth算法的速度要比Apriori算法快。FP-Growth只会扫描数据集两次,它发现频繁项集的基本过程如下:(1) 构建FP树(2)从FP树中挖掘频繁项集FP-Growth算法将数据存储在一种称为FP树的紧凑数据结构中。FP代表频繁模式(Frequent Patte原创 2020-06-12 10:07:45 · 3384 阅读 · 0 评论 -
AdaBoost元算法
元算法元算法(meta-algorithm)是对其他算法进行组合的一种方式。(或称集成方法,ensemble method)集成方法的不同形式:不同算法的集成同一算法在不同设置下的集成数据集不同部分分配给不同分类器之后的集成基于同一种分类器在多个不同实例下的集成bagging:基于数据随机重抽样的分类器构建方法bagging也称自举汇聚法(bootstrap aggregating)。核心思想:假设训练集有NNN个样本,从中随机抽取SSS次,每次有放回的获取MMM个样本,用某个单独的算原创 2020-06-12 10:06:06 · 236 阅读 · 0 评论 -
k-means算法
k-means算法k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,分类的目标事先已知,而聚类结果的类别没有预先定义,聚类也称无监督分类。K-means算法原理k-means算法中的k代表类簇个数,means代表类簇内数据对象的均值(这种均值是一种对类簇中心的描述),因此,k-means算法又称为k-均值算法。k-means算法是一种基于划分的聚类算法,以距离作为数据对象间相似性度原创 2020-06-12 10:04:46 · 528 阅读 · 1 评论 -
kNN算法
k-NN算法介绍kNN(k - Nearest Neighbor),中文名:k-近邻算法工作原理:存在一个数据集,数据集中的每个样本都有对应的标签(即该样本属于哪个类别)。当输入没有标签的新数据时,计算新数据与数据集中每个样本对应特征之间的距离之和,新数据与哪个样本距离之和最小(最近邻),就把该样本的标签作为新数据的标签。k的意思是,在实际应用中一般选取前k个与新数据距离最小的样本,在k个样...原创 2020-06-12 09:58:09 · 203 阅读 · 0 评论