机器学习__信息熵__决策树

熵(shāng), 代表一个系统内在性质的改变.    熵的本质是一个系统“内在的混乱程度”。

热力学中表征物质状态的参量之一.

熵增定律 (与本题无关)

熵增定律是克劳修斯提出的热力学定律,克劳修斯引入了熵的概念来描述 : 热量从高温物体流向低温物体是不可逆的.

信息熵

1948年, 香农在他著名的<<<通信数学原理>>中提出了信息熵的概念.  从而解决了信息的量化问题.  香农认为:  一条信息的信息量和它的不确定有直接关系. 一个问题的不确定性越大, 要搞清楚这个问题, 需要了解的信息就越多信息熵就越大.

应用到决策树

我们遍历所有特征. 分别计算,  使用这个特征, 划分数据级前后, 信息熵的变化,  选择信息熵变化服幅度最大的哪个特征,  优先作为数据及划分的依据.  

选择信息增益最大的特征作为分裂点.

决策树

决策树是一个 用于分类回归任务的简单、非线性模型.

我们使用决策树可以 创建一个广告拦截器,它能学习将一个网页中的图片分类为横幅广告
或网页内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值