机器学习(Machine Learning)
文章平均质量分 90
Jeramy_zsm
To be or not to be, that is a question
展开
-
常用的数据预处理方法
No1.标准化(Standardization or Mean Removal and Variance Scaling) 变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。>>> from sklearn import preprocessing >>> X=[[1.,-1.,2.], [2.,0.,0.],原创 2016-10-20 20:22:40 · 20926 阅读 · 1 评论 -
决策树的初体验
接下来是三种经典的决策树算法的学习过程:Step1:信息熵与信息增益 信息熵(information_entropy):是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,…,|y|),则D的信息熵定义为: Ent(D)的值越小,则D的纯度越高。 假定离散属性a有V个可能的取值{},若使用a来对样本集D进行划分原创 2016-10-14 23:22:51 · 2217 阅读 · 0 评论 -
Ensemble learning 集成学习(一)
一.Ensemble learning(集成学习) 集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统等。要获得好的集成,个体学习器应”好而不同”,意味着个体学习器要有一定的准确性,即学习器不能太坏。并且还要有多样性,即学习器间具有差异。但是,一般准确性很高之后,要增加多样性就需要牺牲准确性。 根据个体学习器的生成方式,目前的集成学习方法大致可分为两类,即个体学习器间存在强原创 2016-10-17 22:20:13 · 4917 阅读 · 1 评论 -
Ensemble learning 集成学习(二)
No4.Grandient Boosting gradient boosting(又叫Mart, Treenet):Boosting是一种思想,Gradient Boosting是一种实现Boosting的方法,它主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向。loss function(损失函数)描述的是模型的不靠谱程度,损失函数越大,则说明模型越容易出错(其实这里有一个方差原创 2016-10-19 18:19:06 · 6000 阅读 · 0 评论 -
决策树的成长之路
这一篇主要讲我在学习决策树过程中的一些思路整理和比较直白的说明。以下不涉及具体的公式计算,如果想要了解更多,不妨看一下我的另一篇博文http://blog.csdn.net/savinger/article/details/52819900。当然,要讨论一个问题,免不了“是什么,为什么以及怎么做”这个经典的套路。 首先,什么是决策树呢? 就我个人的理解,决策树就是通过一步一步的判断和决策,把数据原创 2016-11-13 03:08:58 · 4432 阅读 · 0 评论