机器学习
文章平均质量分 81
qq_15037067
爱好算法,
展开
-
线性回归
1.线性回归原理 回归的目的就是预测数值型的目标值,回归方程就是回归系数和输入线性组合的方程,求回归系数的过程就叫回归。线性回归是输入项和系数相乘在相加,非线性回归可能认为输出是输入的相乘 求回归系数就是求出误差函数并对会回归系数求导,并让其为0,就可以求出回归系数原创 2017-02-16 16:00:54 · 280 阅读 · 0 评论 -
树回归
1.CART算法 当数据的特征非常多并且特征之间的关系非常复杂时,或者要求的问题不是线性时,就不能用全局线性模型来拟合数据,一种可行的方法是先把数据分成多份容易建模的数据,然后利用回归来建模。 CART(分类回归树)既可以用作分类也可以用来回归,是非常著名的树构建算法,他用二元切分处理连续型变量,如果特征值大于给定值就走左子树,否则就走右子树 def loadDataSet(fileName原创 2017-02-17 13:57:10 · 497 阅读 · 0 评论 -
k均值聚类和二分k均值聚类
1.无监督学习 无监督学习就是在没有标签的情况下对数据进行聚类分析或关联性分析。聚类如k均值聚类,关联性分析如购物蓝分析,啤酒和尿布分析 2.k均值聚类 k均值是发现数据集中k个簇的算法,簇的个数是用户给定的。每个簇的质心通过通过簇中所有点的中心描述。其原理是先随机定义k个质心,更新数据的质心,更新簇的中新,直到数据所在的簇不变为止 from numpy import * #解析文本 de原创 2017-02-17 20:14:58 · 632 阅读 · 0 评论 -
Apriori算法
1.关联学习 关联分析是在大规模数据集中寻找关系的任务,这种关系有两种形式频繁项和关联规则。频繁项集是经常出现在一起的物品的集合。关联规则暗示两种物品直接按可能存在很强俄关系。 一个项集的支持度被定义为数据集中包含该项集的记录所占的比例 可信度是针对一条诸如{尿布}——{葡萄酒}的关联规则定义的。可信度为支持度{尿布,葡萄酒}/支持度{尿布} 2.Apriori算法原理 Apriori算原创 2017-02-18 17:11:24 · 276 阅读 · 0 评论 -
机器学习实战笔记(k邻近算法)
1.k邻近算法原理 k邻近算法通过计算不同特征值间的距离进行分类 存在一个样本数据集合,也称为训练样本集,样本集中每个数据都存在标签。输入没有标签的新数据后,将输入数据中的每个特征值和训练样本集进行比较,然后选出特征最相似的数据集的标签作为输入数据集标签。一般来说我们选取训练样本集中前k个相似数据,然后选取k个相似数据中出现最多的标签作为输入数据标签 2.python代码实现原创 2017-02-12 10:01:40 · 299 阅读 · 0 评论 -
决策树
1 决策树原理 熵表示信息的不确定程度,原创 2017-02-12 18:53:36 · 307 阅读 · 0 评论 -
AdaBoost元算法学习笔记
1,算法原理 元算法是对不同算法进行组合的方式来提高算法的性能。AdaBoost是最流行的元算法的一种。 使用元算法有多种形式,如不同算法的集成,同一算法在不同设置上的集成,数据集的不同部分分给不同算法后的集成 AdaBoost 的运行过程如下,数据集中的每个数据有一个权重,这些权重构成一个向量D,权重一开始初始为相同值,然后用数据集训练出一个弱分类器,然后计算错误概率。然后在同一数据集上再原创 2017-02-14 19:08:33 · 785 阅读 · 0 评论