机器学习必看系列--决策树1

最新推荐文章于 2020-06-08 23:34:27 发布

吾本良人

最新推荐文章于 2020-06-08 23:34:27 发布

阅读量344

点赞数 2

本文链接：https://blog.csdn.net/u011846750/article/details/64465525

版权

最近开始阅读周志华教授《机器学习》，有一些经验跟心得拿来分享，并且在这边做些笔记，以来做知识总结和回顾

-------------------------------------------------------------------------------------------------------------------------------------------------------------

在入这个坑之前，先来了解下，什么是机器学习？

先来看这两张图

凭借我们的经验，左图眼睛、鼻子、嘴巴更显端正，更符合我们日常的审美，所以我们能很快得出一个结论，左图更加的漂亮。那么问题来了，机器并不是人，该如何辨别“谁更加漂亮”呢。

而机器学习正是基于类似的目的而诞生，它致力于研究如何通过计算的手段，利用经验来使得机器能跟人一样的来辨别分类。而“经验”就是如我们上面所说的，“眼睛更大更漂亮”，“鹅蛋脸更漂亮”等等这些我们的认知。

在计算机领域中，经验存储在数据中，因此通过学习数据，我们能得到这些“经验”，而通过“经验”来构成模型，在通过模型来辨别其他Machine不认识的妹子谁更漂亮，这就是机器学习。

------------------------------------------------------------------------------------------------------------------------------------------------------------

做为机器学习的第一站，先从决策树，最简单的开始

上图就是最简单的一种决策树，通过判断多种外观特征，来判断一个女孩是否“漂亮”(当然，这只是一个比较粗浅的判别方法~ - _-#)。不知各位看官有没有注意到，我把“脸型“这个属性放在第一位哈，为什么呢，“脸型”属性跟其他“胸”、“眉毛”属性有什么区别吗？(好可惜~)

这里就要引出来决策树里面一个非常重要的概念，叫做“信息增益”。

什么是信息增益呢？官方的解释是“度量样本集合纯度最常用的一种指标”有公式

信息增益：

D指当前的样本集，a指离散属性，其中Ent(D)被称作信息熵，公式为：

其中pk是指第K类样本所占的比例。最后算出的Gain值越小，则代表纯度越高。

这样看似乎太过于绕人了，不过数学公式仍然是要介绍。现在我们用这两个公式来解决之前关于为什么要选“脸型”做为第一个分支属性的原因。

下面是数据集1.0，规模不大，不过做为测试勉强够用了

编号1	胸	脸型	眉毛	漂亮
1	A	圆	柳叶	否
2	B	圆	剑眉	否
3	B	鹅蛋	剑眉	是
4	C	圆	柳叶	是
5	A	国字	一字	否
6	A	圆	一字	否
7	C	鹅蛋	剑眉	是
8	B	圆	柳叶	否
9	C	国字	一字	否