注:以下信息摘自各个网页和论坛。只是做一个综合。谢谢前辈们的分享。
数据压缩编码的理论基础:
信息论,从信息论的角度来看,压缩就是去掉信息中的冗余,即保留不确定的东西,去掉确定的东西(即可以推知的东西),使用一种更接近信息本质的描述来代替原有的冗余的描述,这个本质的东西就是信息量(即不确定因素)
信息论中的信源编码理论解决的主要问题:
(1)数据压缩的理论极限
(2)数据压缩的基本途径。
根据信息论的原理,可以找到最佳数据压缩编码的方法,数据压缩的理论极限是信息熵。如果要求编码过程中不丢失信息量,即要求保存信息熵,这种信息保持编码叫熵编码,是根据消息出现概率的分布特性而进行的,属于统计编码中的一类,是无损数据压缩编码。
熵编码是建立在随机过程的统计基础之上的。
信源X的熵,是信源X发出任意一个随机变量的平均信息量。
常见熵编码方法:
霍夫曼编码,算术编码,行程编码