机器学习
king523103
这个作者很懒,什么都没留下…
展开
-
机器学习之朴素贝叶斯
朴素贝叶斯常用于文档分类。贝叶斯理论最核心的就是条件概率的定义和贝叶斯准则: P(C|X)=P(C,X)P(X)=P(X|C)∗P(C)P(X)P(C|X)=\frac{P(C,X)}{P(X)}=\frac{P(X|C)*P(C)}{P(X)} 其中P(C)P(C)为先验概率,P(C|X)P(C|X)为后验概率 使用贝叶斯准则,需要知道三个概率值:P(X|C)P(X|C)、P(C)P(C)原创 2015-11-04 14:52:57 · 695 阅读 · 0 评论 -
机器学习之聚类方法总结
基于划分聚类算法(partition clustering) 名字 特点 k-means 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据 k-modes K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度 k-prototypes 结合了K-Means和K-Modes两种转载 2015-10-15 09:18:08 · 6888 阅读 · 0 评论 -
机器学习之聚类算法(层次聚类)
层次聚类也叫连通聚类方法,有两个基本方法:自顶而下和自底而上。自顶而将所有样本看做是同一簇,然后进行分裂。自底而上将初所有样本看做不同的簇,然后进行凝聚。这种聚类的中心思想是:离观测点较近的点相比离观测点较远的点更可能是一类。 这种方法首先会生成下面的树 分成几类需要通过对上面的树状图进行剪枝来决定。例如需要分成两类,则选择一条水平直线刚好和树相交两次,从而化为左右两棵子树。 不过上面的方法过原创 2015-10-14 17:08:36 · 7069 阅读 · 1 评论 -
机器学习中的距离
机器学习中,对于样本之间相似度量方法有很多,通常方法是采用计算样本之间的“距离”,不同的“距离”有不同的计算方法和含义原创 2015-10-14 14:39:22 · 1150 阅读 · 0 评论 -
机器学习之决策树生成和裁剪
决策树学习比较典型的有三种算法:ID3 C4.5 CART。 决策树是一种分类预测算法,通过训练样本建立的决策树,能够对未来样本进行分类。决策树算法包括:建立决策树和裁剪决策树。裁剪决策树是为了减少过拟合带来的错误率。建立决策树的过程,是一种递归分级参考属性的过程,这个过程中会使用参考属性对目标属性的依赖关系。如下面例子,参考属性包括:有房、婚姻、收入。 目标属性:拖欠贷款。ID3和C4.5ID3和原创 2015-11-10 21:56:52 · 2611 阅读 · 0 评论 -
机器学习之聚类算法(CANOPY)
参考:http://chiffon.gitcafe.io/2014/12/28/cluster-analysis.html CANOPY是另外一个不需要指定K的聚类算法,它的速度很快,不过由于它分类比较粗,因此一般用于在K-Means之前用于确定K的值提供参考。 CANOPY算法分为两大步: 生成canopy设定T1(松阈值)>T2(紧阈值)将需要聚类的数据转化为一个list的形式将li原创 2015-10-20 15:16:13 · 879 阅读 · 0 评论 -
机器学习之KNN
KNN简单地说是采用测量不同特征值之间的距离方法进行分类 算法非常简单,不过这是一个监督算法,训练数据需要经过人工标记。算法中心思想是:计算候选样本到所有训练样本之间的距离,选取k个最近距离数据中出现次数最多的分类作为新样本的类别。from numpy import *import operatordef classify0(sample,dataSet,labels,k): samp原创 2015-11-05 12:30:16 · 509 阅读 · 0 评论 -
机器学习之聚类算法(K-Means)
参考:http://chiffon.gitcafe.io/2014/12/28/cluster-analysis.html 聚类算法可以分为:中心点方法、层次聚类方法、基于密度方法、基于网格、基于模型方法。 其中最为经典的是K-means算法K-meansK-means属于中心点方法(也有叫划分方法),算法经典简单。 算法人工选取K值,并选取K个点作为K个簇的质心对所有样本分别计算到K个簇原创 2015-10-30 17:39:53 · 2918 阅读 · 0 评论