非度量方法（判定树和熵）

最新推荐文章于 2023-05-26 21:34:33 发布

Tine Chan

最新推荐文章于 2023-05-26 21:34:33 发布

阅读量662

点赞数

分类专栏：机器学习文章标签：非度量方法（判定树和熵）

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chanleoo/article/details/83348945

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

首先，来看下什么叫有度量方法。如下：

生活中，有些事物可以用数字去衡量或者代为表示，用于比较同性质的量，这叫度量方法。

可是，对于整体来讲。不能用量化表示这个整体，比如2两的苹果，它并不等于苹果。所以呢，只能用非度量方法-语义（文字或符号）表示。而对于语义，判定树是一个很好的模型去给它和其他类型标记分类。判定树兼容数字和文字选择方式。

熵的定义：表示不纯度，即混沌程度。对于分类来讲就是数据的不确定在哪个类别所占比。

举例：H= $\tiny \sum_{j}^{}$ p(i)log2(pi)

假如一组数据有k类信息，那么每一个信息所占的比例就是pipi。比如水果数据包含苹果，香蕉，芒果这三种数据，那么每种水果所占的比例都是1/3。
因为pi只可能是小于1的，所以log(pi)始终是负数。所以需要在公式最前面加负号，让整个熵的值大于0。

我们来举几个例子看一下，首先用水果的例子，三种水果各占1/3、1/3、1/3：

{1/3,1/3,1/3}

那么代入信息熵的公式可得：

H=−1/3log(1/3)−1/3log(1/3)−1/3log(1/3)=1.0986

再来看一个例子：

{ 1/10,2/10,7/10}

代入公式可得：

H=−1/10log(1/10)−2/10log(2/10)−7/10log(7/10)=0.8018

从上面两个例子可以看出，第二个例子的信息熵比一个例子的小，那么意味着第二个示例的数据不确定性要低于第一个示例的数据。其实从数据中也能看出，其中有一类信息占全部信息的7/10，所以大多数据是能确定在某一类中的，故而不确定性低。而第一个示例中每类信息都占了全部信息的1/3，所以数据不能很明确的确定是哪类，故而不确定性高。

再来看一个极端的例子，{1,0,0}，将其代入信息熵公式后得到的值是0。因为整个数据中就一种类型的数据，所以不确定性更小，即信息熵达到了0。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
非度量方法（判定树和熵）

首先，来看下什么叫有度量方法。如下：生活中，有些事物可以用数字去衡量或者代为表示，用于比较同性质的量，这叫度量方法。可是，对于整体来讲。不能用量化表示这个整体，比如2两的苹果，它并不等于苹果。所以呢，只能用非度量方法-语义（文字或符号）表示。而对于语义，判定树是一个很好的模型去给它和其他类型标记分类。判定树兼容数字和文字选择方式。熵的定义：表示不纯度，即混沌程度。对于分类来讲...
复制链接

扫一扫

专栏目录

Tine Chan CSDN认证博客专家 CSDN认证企业博客

码龄6年

193: 原创

5万+: 周排名

158万+: 总排名

15万+: 访问

: 等级

3034: 积分

35: 粉丝

42: 获赞

13: 评论

216: 收藏

私信

关注

热门文章

分类专栏

深度学习 9篇
点滴感悟 14篇
C++再读 79篇
机器学习 12篇
python 12篇
C++ 19篇
ROS 9篇
语言文化 17篇
软件安装及配置 10篇

最新评论

GM（1，1）和GM（1，n）预测模型
htf147852: 实际数据326.37 327.1 327.6 349.9 380 409.6 预测数据(4)未来[3]步的预测值分别为: [32390.403, -72309.811, 94241.965]为什么差别这么大，可能存在什么问题啊
韦式音标
ll0xx: 不全对啊 DK旧应该有： /uə/ poor
nc文件python读取变量值
weixin_44851718: 博主您好，请问在用loc提取某一段时间范围的变量值时，输出的nc文件多了一个属性"cell_methods: time: mean"，输出的nc文件的变量数值也和原来的不一样，请问这是什么原因，应该怎么解决呢？谢谢博主
GM（1，1）和GM（1，n）预测模型
weixin_43415368: 请问博主，GM(1,N)中，最后输出的a、c、d是什么含义呢？输出的bn是驱动系数的话，那输出的a是不是发展系数？
预处理到底做了什么
Turtletortoise: 茅塞顿开兄弟，给力啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。