周志华《机器学习》 读后感

原创 2016年09月16日 20:03:55

书还是比较厚的,我会挑感兴趣的章节先更新。

以写小结和感想为主。(我也是机器学习入门,所以小结以感性理解为主。)



第四章 决策树 ☑️


---------第四章 决策树 -----------

What

决策树 首先是一棵树 利用贪心法 每个中间节点 按照学习到的原则分隔 几波数据,(就是分叉几个子节点)。

所以对于分类问题而言,数据从根节点进入,最后掉到的叶结点是哪个类的 就是哪个类,就是output。

对于回归问题而言,每个节点设计的规则是一个区间,比如 <0.5 和  >= 0.5的这样就分了两个区间。

最后掉到的叶子节点也是个区间(到根节点路径上的条件的交集)。


How

1. 按照什么贪心原则来分叉子节点?

按照分叉后的信息熵,选个信息熵减小最多的分叉方法。

(看过数学之美以后就记得,p=0和1时 信息熵是0,因为都不用猜了。贪心的是分隔最好的情况。

我按纹理分西瓜,条纹的100%是好瓜,斑点的100%是坏瓜。那我一下就解决了分类好瓜坏瓜的问题。

如果按颜色,深绿的90%好瓜10%坏瓜,浅绿的10%好瓜90%坏瓜。

这个贪心原则告诉我们,当然是按纹理来分叉好啊!)

也可以按基尼指数来划分,我觉得这个和信息熵是异曲同工的。

基尼指数是指,我按一定原则划分好以后,测某一分叉中,随机两个样本不是同一类的概率,最后所有分叉的概率求和。越小越好咯~

所以最后贪心  基尼指数最小的一种划分。

2. 过/欠拟合怎么办? (可以想象树很多叉的话,过于精细,特别容易过拟合)

a. 预剪枝

在分叉前判断,这个分叉在validation上面结果好不好,不好的话,咱就不分叉了。(但这个方法容易欠拟合,换句话就是啥都没学到)

b.后剪枝

根据训练集先生成一棵树,然后再删分支。

删之前,看一下 validation set准确率。

删之后,父节点变成子结点,按照 training set ,来定义它的节点含义。然后再看一下现在 validation set准确率。

如果高了就真的删,不高不删。


3. 数据有缺失值,怎么办?

如果这个节点的判断条件里要求的属性正好缺失,

那就两边都分一点咯。(意义是有一定概率掉到A分支,一定概率掉到B分支,可按照没有缺失的样本掉入的比例来赋值这个概率)


4. 有没有可能每个节点都是一个svm? 多变量决策树 

每个节点的判断条件由多个变量决定。



---------第八章 集成学习 -----------

还记得  之前吐槽过cuhk做人脸的时候人脸切了好多patch,每个patch train一个神经网络  太脏了。。。

What

首先,集成学习很实用,特别当你已经训好几个不同的单个分类器的时候,只要采用投票策略,就可能比其中最好的单分类器的结果要好。

但投票策略也不能保证一定比原来单个分类器的结果更好。

(一个简单的投票策略:m个分类器,其中有一半以上说这张图片是狗,那么预测是狗。如果没到一半,就拒绝预测。有种中合大家预测结果的感觉。)


How

集成学习 可以分为两类:


版权声明:本文为博主原创文章,未经博主允许不得转载。 举报

相关文章推荐

《机器学习》周志华 读书笔记

第一章:绪论 泛化能力:学到模型适用于新样本的能力。衍生:泛化误差 归纳偏好:算法在机器学习过程中对某种假设的偏好 “奥卡姆剃刀”原则:若有多个假设与观察一致,则选最简单的那个 NFL定理:没...

《机器学习》(周志华)读书笔记

周志华老师的新书《机器学习》,第28页论及训练集相关的方法时,讲道 “给定包含m个样本的数据集D,在模型评估与选择过程中由于需要留出一部分数据进行评估测试,事实上我们只使用了一部分数据训练模型。因此,...

我是如何成为一名python大咖的?

人生苦短,都说必须python,那么我分享下我是如何从小白成为Python资深开发者的吧。2014年我大学刚毕业..

斯坦福大学Andrew Ng教授主讲的《机器学习》公开课观后感

转自:斯坦福大学Andrew Ng教授主讲的《机器学习》公开课观后感 近日,在网易公开课视频网站上看完了《机器学习》课程视频,现做个学后感,也叫观后感吧。 学习时间 从2013...

机器学习(周志华) 参考答案 第三章 线性模型 3.5

机器学习(周志华) 参考答案 第三章 线性模型 3.5机器学习(周志华西瓜书) 参考答案 总目录 http://blog.csdn.net/icefire_tyh/article/details...

机器学习(周志华) 参考答案 第三章 线性模型 3.4

机器学习(周志华) 参考答案 第三章 线性模型 3.4机器学习(周志华西瓜书) 参考答案 总目录 http://blog.csdn.net/icefire_tyh/article/details...

周志华机器学习 西瓜书(PDF) 斯坦福大学机器学习视频 机器学习基石+技法 邹博机器学习 七月在线机器学习 资源下载

机器学习周志华:链接: http://pan.baidu.com/s/1i5pz5TN 密码: 9ayx 2014斯坦福大学机器学习mkv视频:链接: http://pan.baidu.com/s/...

CUDA学习笔记十三

CONSTANT  MEMORY constant Memory对于device来说只读但是对于host是可读可写。constant Memory和global Memory一样都位于DRAM,并且有...

机器学习(周志华) 参考答案 第二章 模型评估与选择

机器学习(周志华) 参考答案 第二章 模型评估与选择机器学习(周志华西瓜书) 参考答案 总目录 http://blog.csdn.net/icefire_tyh/article/details/52...

西瓜书学习笔记(一)

这本书一共16章,大体分为三部分: 第一部分:1-3章,介绍机器学习基础知识 第二部分: 4-10章,介绍经典而常用的机器学习方法 第三部分:11-16章,介绍一些进阶知识 其中前三章之后各部分内容...

机器学习(周志华) 参考答案 第三章 线性模型 3.3

机器学习(周志华) 参考答案 第三章 线性模型 3.3机器学习(周志华西瓜书) 参考答案 总目录 http://blog.csdn.net/icefire_tyh/article/details...
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)