信息熵

信息熵

信息熵是对某一件事件的发生各种结果的信息量的期望值。

熵越小,意味着这个事件的不确定性越小,即我们得到事件结果的代价越小。相反,熵越大,事件的随机性越强,得到事件结果的代价也随之增加。另一种理解可以用编码来解释,信息熵表示了描述一件事件的发生结果的平均编码长度。

H(X)=ip(xi)logp(xi) H ( X ) = − ∑ i p ( x i ) l o g p ( x i )

公式的理解

首先公式的原型其实是:

H(X)=ip(xi)log1p(xi) H ( X ) = ∑ i p ( x i ) l o g 1 p ( x i )

其中 log1p(xi) l o g 1 p ( x i ) 表示事件 xi x i 的信息量。 分数的可以用-1次方表示,可以利用对数的性质将-1提前即可
1. 为什么采用log的形式呢?
一是它的单调性问题,即p(xi)越大,其该函数值越小。相反,p(xi)越小,其该函数值越大。正好对应信息论的观点:
- 某一事件发生概率越大,它所带来的信息量就越小。比如有人跟说你一年有12个月,你是不是想说,卧槽,你这不是废话!说明该事件的信息量对你来说很小,进一步说明该事件的正确性越强。
- 某一事件发生概率越小,它所带来的信息量就越大。比如现在是夏天,有人跟你说明天下雪,你会不会很惊讶,觉得不可思议!那么这件事对你来说就是信息量很大,吸引了你的注意力。即小概率事件的信息量很大,进一步说明该事件的正确性越弱。

二是因为取对数可以获得描述该事件信息量的位数表示,并且一般以2为底。这是因为在计算机一般采用2进制编码,每一位只有0或1,所以采用以2为底取对数。这样我们就可以用位数来衡量一个事件所需的平均码长。这里可以联想到哈夫曼编码,对发生概率高的事件采用短码长,对发生概率低的事件采用长码长,以达到数据压缩的效果。
2. 那上述公式为什么那样写呢?
我们已经知道了一个事件其中一个结果的信息量的数学表达形式了。但这件事件肯定有多个结果啊,我们怎么来衡量这一事件的信息量呢?取期望啊,这不就是我们在统计学上所学的知识,变量X的取值有多个,但如果我们想用一个单值来度量变量X,这就引入了期望的概念。所以信息熵的表达式其实就是事件各个结果信息量的期望值。用一个单值来度量多个结果的事件的信息量、不确定性和随机性。

应用

决策树算法(ID3)

采用信息增益作为属性选择度量,优先选择的属性具有以下优点:
1. 可以使当前数据集合划分后的信息量最小,即不确定性最弱,也就是说划分后的数据越“纯”。
2. 通过该属性来划分当前数据的所需的码长(可以理解为代价)越短。
3. 信息增益告诉我们本次划分我得到的信息量有多少,当然优先选择得到信息量最多的那一个啊。这样我们对于样本分类所需的信息量就少了许多。等价于在“能做最佳分类”的属性A上划分,使得完成样本分类还需要的信息最小。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Matlab中,可以使用Entropy函数来计算信号的信息熵信息熵是用来衡量信号的不确定性和信息量的度量指标。通过计算信号的概率分布和对数运算,可以得到信号的信息熵。下面是一个示例代码: ```matlab % 生成两个随机信号 x1 = randn(1000,1); x2 = rand(1000,1); % 计算信号的信息熵 H1 = entropy(x1); H2 = entropy(x2); disp(['Signal 1 entropy: ', num2str(H1)]); disp(['Signal 2 entropy: ', num2str(H2)]); ``` 在这个示例中,我们生成了两个随机信号x1和x2,并使用Entropy函数分别计算了它们的信息熵信息熵的值越大,表示信号的不确定性和信息量越高。根据信号的概率分布情况,可以得出信号的信息熵值。需要注意的是,确定的事件信息熵值为零,而时间不确定的事件信息熵值会大于零。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [matlab求信号的信息熵](https://blog.csdn.net/weixin_44463965/article/details/130250850)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【与特征提取】基于“信息熵”的特征指标及其MATLAB代码实现(功率谱、奇异谱、能量)](https://blog.csdn.net/fengzhuqiaoqiu/article/details/121177862)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值