实验要求:
1.什么是信息熵?
2.一串消息包含A,B,C,D,E共5类符号,其内容是AABBBBAAAACCCCCCCCCEEEEEEDDDDEEEEEEEEEEEEE, 请问其信息熵是多少?如果分别采用香农-凡诺编码,霍夫曼编码,压缩率分别是多少?
3.一幅1024*768的24位RGB彩色图像一共在内存中占有多少字节? 如果将其保存为非压缩格式的BMP文件,文件有多少字节?请用实例验证。
一、什么是信息熵?
引入:
信息熵的重要性:
机器学习中,绕不开的一个概念就是熵 (Entropy),信息熵。信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的生成过程中,就使用了熵来作为样本最优属性划分的判据。
1.1信息熵的定义
1.2信息熵的三个性质
信息论之父克劳德·香农给出的信息熵的三个性质:
- 1.单调性,发生概率越高的事件,其携带的信息量越低;
- 2.非负性,信息熵可以看作为一种广度量,非负性