机器学习
Pywin
这个作者很懒,什么都没留下…
展开
-
结合Scikit-learn介绍几种常用的特征选择方法
作者: Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通转载 2017-04-17 14:08:02 · 606 阅读 · 0 评论 -
【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子
原文:http://blog.csdn.net/jasonding1354/article/details/50562513内容概要¶训练集/测试集分割用于模型验证的缺点K折交叉验证是如何克服之前的不足交叉验证如何用于选择调节参数、选择模型、选择特征改善交叉验证1. 模型验证回顾¶进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们转载 2017-04-21 10:09:46 · 634 阅读 · 0 评论 -
K-means最简理解
K-means算法是一种无监督的机器学习算法。K-means的核心思想是人以类聚,物以群分。废话不多说,直接上算法步骤算法过程如下:1)从N个文档随机选取K个文档作为质心2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类3)重新计算已经得到的各个类的质心4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束算法过程如图:有图有算法原创 2017-06-10 15:17:40 · 825 阅读 · 0 评论 -
K-中心点聚类算法(K-Medoide)
K-中心点算法也是一种常用的聚类算法,K-中心点聚类的基本思想和K-Means的思想相同,实质上是对K-means算法的优化和改进。在K-means中,异常数据对其的算法过程会有较大的影响。在K-means算法执行过程中,可以通过随机的方式选择初始质心,也只有初始时通过随机方式产生的质心才是实际需要聚簇集合的中心点,而后面通过不断迭代产生的新的质心很可能并不是在聚簇中的点。如果某些异常点距离质心相原创 2017-06-10 15:52:11 · 59526 阅读 · 11 评论 -
朴素贝叶斯方法(Naive Bayes)原理
本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述。实例部分总结了《machine learning in action》一书中展示的一个该方法用于句子感情色彩分类的程序。1方法概述学习(参数估计)实现:朴素贝叶斯下的文本分类模型概述朴素贝叶斯方法,是指朴素:特征条件独立贝叶斯:基于贝叶斯定理根据贝叶斯定理,对一个分类问题,给定样本特征x,转载 2018-01-12 13:17:48 · 1370 阅读 · 0 评论 -
感知机笔记
最近在《统计学习方法概论》中读了感知机这一章节,就随手记录下学习笔记和自己的一些理解。不得不吐槽一下插公式真的是麻烦。假设输入空间(特征向量)为X⊆Rn,输出空间为Y={-1, +1}。输入x∈X表示实例的特征向量,对应于输入空间的点;输出y∈Y表示示例的类别。由输入空间到输出空间的函数为f(x)=sign(w⋅x+b)称为感知机。其中,参数w叫做权值向量weight,b称为偏置b原创 2018-01-14 11:01:04 · 308 阅读 · 0 评论