机器学习实战
文章平均质量分 70
fang_shiny
这个作者很懒,什么都没留下…
展开
-
机器学习实战 k-近邻算法
边看书边看代码,结合自己的理解总结。 概括: 1.思想:计算测试样本与训练集对应特征值之间的距离(文中用的是欧式距离),认为与测试样本距离最近的k个样本可以用来描述这个测试样本,取这k个训练样本中出现最多次的类别,作为这个测试样本的类别。 2.优点:精度高,对异常值不敏感 3.缺点:复杂度高 4.适用范围:数值型和标称型 (数值型主要是指它的目标变量可以从无限的数值集合中取值,标称型指的原创 2015-05-07 09:20:24 · 326 阅读 · 0 评论 -
机器学习实战 决策树
决策树的引出: 前一节学到了knn,在分析代码后总结到knn有一个缺点是无法给出数据的内在含义,比如说无法去研究特征的含义 只是单纯的知道特征大小。而决策树就可以非常容易的去理解数据。总结: 1.复杂度不高,输出结果容易理解(对特征的描述),可以处理不相关特征 2.缺点是会产生过度匹配 3.只适用于标称型数据(比如是否这种选择性的特征,或合格 良好 优秀这种可用有限的离散数字描述的特征),如原创 2015-05-07 10:53:07 · 257 阅读 · 0 评论 -
机器学习实战 朴素贝叶斯
朴素贝叶斯的思想是对样本属于每一个类别的情况求概率,认为概率最高的类别就是这个样本的类别。所以它可以用来解决多类别的问题,同时也只能对标称型的数据处理。 在理解它是怎么分类之前,需要掌握条件概率的理论。如果把这种分类方法与条件概率结合起来理解的话,就是P(类别|样本)=P(样本|类别)*P(类别)/P(样本)。和我们的理解一样,如果要判断这个样本的类别,就去判断已知这个样本属于某个类别的概率,原创 2015-05-14 22:06:59 · 306 阅读 · 0 评论