熵
熵(shāng), 代表一个系统内在性质的改变. 熵的本质是一个系统“内在的混乱程度”。
热力学中表征物质状态的参量之一.
熵增定律 (与本题无关)
熵增定律是克劳修斯提出的热力学定律,克劳修斯引入了熵的概念来描述 : 热量从高温物体流向低温物体是不可逆的.
信息熵
1948年, 香农在他著名的<<<通信数学原理>>中提出了信息熵的概念. 从而解决了信息的量化问题. 香农认为: 一条信息的信息量和它的不确定有直接关系. 一个问题的不确定性越大, 要搞清楚这个问题, 需要了解的信息就越多, 其信息熵就越大.
应用到决策树
我们遍历所有特征. 分别计算, 使用这个特征, 划分数据级前后, 信息熵的变化, 选择信息熵变化服幅度最大的哪个特征, 优先作为数据及划分的依据.
选择信息增益最大的特征作为分裂点.
决策树
决策树是一个 用于分类和回归任务的简单、非线性模型.
我们使用决策树可以 创建一个广告拦截器,它能学习将一个网页中的图片分类为横幅广告
或网页内容。