《数据科学家养成手册》第九章信息论

事先声明:

  兴趣使然,阅读书籍的过程中看了一些资料,但并不能看太懂

信息论是围绕数据存储于传输量化等一系列问题所展开的一门专门研究信息的学科。

一句话总结作者:“在某一种设定情况下,最简洁可以用多少数据来表达或传输一个信息,同时量化它的失真程度

“信息是被消除的不确定性”------美国电气工程专家哈特莱

1.早起的记录信息使用模拟信号----利用振动出声的原理(只要振动的各个属性特征使一样的,可以保证人耳听出的声音无差别)

比如:唱片上会有很多的小的槽。“弯弯曲曲”记录了声源的属性。在回放的时候,将唱针放入凹槽,然后唱片以一定的速率转动,就可以通过唱针的振动出声。

2.信息量:

信息多少的量度。1928年R.V.L.哈特莱首先提出信息定量化的初步设想,他将消息数的对数定义为信息量。若信源有m种消息,且每个消息是以相等可能产生的,则该信源的信息量可表示为I=logm。但对信息量作深入而 系统研究,还是从1948年C.E. 仙农的奠基性工作开始的。在 信息论中,认为信源输出的消息是随机的。即在未收到消息之前,是不能肯定信源到底发送什么样的消息。而通信的目的也就是要使接收者在接收到消息后,尽可能多的解除接收者对信源所存在的疑义(不定度),因此这个被解除的不定度实际上就是在通信中所要传送的信息量。


香农通过引入描述信息杂乱或意外程度的方式-----信息熵

信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少 信息量
直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是C.E.香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。
信息论之父 克劳德·艾尔伍德·香农第一次用数学语言阐明了概率与信息冗余度的关系。
信息量与熵笔记 - CSDN博客

https://blog.csdn.net/ggwcr/article/details/77964184

3.香农公式

在通信过程中,信道里的信号会受到各种的干扰,所以永远都存在误传的概率。如何的保证准确性?

香农通过研究解决了一个非常重要的问题--即使在有一定量噪声的信道环境中,通过对编码的调整,仍然可以获得没有误传的信号,并留下了“香农公式”


例子:


信噪比=10lg(S/N)

4.数字信号

(1)数字信号的抗干扰能力强

之前的模拟信号受干扰的话,波形就容易发生变形,然后就很难恢复。

(2)虽然数字信号和模拟信号在底层的传输没有差别,但是数字信号有一定的编码规则。所以在传输过程中可以通过冗余信息来纠错。

在数字信号编码设计的过程中,可以通过把最后一位设置为校验位,当前面的进行相应的异或(或其他的操作)(输入法,气死了,打个yihuo,竟然没有,还要逐个的打)若是结果与检验位的一致,则说明正确,反之

资料:

uart中:起始位,停止位,就校验位,数据位,数据位的位数,波特率,数据通讯的接口定义 - CSDN博客

https://blog.csdn.net/dagefeijiqumeiguo/article/details/68921727

5.Huffman 编码

就是根据词语的出现频率,出现次数多的就用最少的为表示,出现次数少的就用相对长一点的二进制表示。从而在整个的文本上的编码,就会短,节省空间。

huffman编码必须保证“前缀编码的原则”:也就是任何一个编码不能是另一个的前缀,以免出现二义性

资料:

霍夫曼编码(Huffman Coding) - CSDN博客

https://blog.csdn.net/xgf415/article/details/52628073

由于信息中产生的冗余信息会导致存储和传输效率低下,所以出现了一大批解决这个问题的算法。根据算法的压缩时所涉及的场景,可以分为;无损压缩和有损压缩

6.无损压缩

Huffman coding 就是一种简单的无损压缩的雏形,无损压缩用于在压缩过程中不允许信息出现丢失的情况。

主要是针对我们生活的文字性文件等

(1)无损压缩很多是基于“字典压缩”(Dictionary Compression)

被比如:LZ77算法,  DEFLATE算法,还有LZO算法的那个

资料:

LZ77压缩算法编码原理详解(结合图片和简单代码) - 转瞬之夏 - 博客园

https://www.cnblogs.com/junyuhuang/p/4138376.html

【数据压缩】LZ77算法原理及实现 - Treant - 博客园

https://www.cnblogs.com/en-heng/p/4992916.html

7.有损压缩

就是允许有一定损失的场景,多见于模拟信号的处理。

首先人类是通过自身的视觉,听觉等感知到的模拟信号多为连续不断的信号。

但是人类的视觉和痛觉的敏感程度是有限的,也就是,人类可以天然容纳一些视听方面的信息损失,所以只要在视频,音频的模拟信号的区间选择稀疏度不超过人类辨识的程度是可以被接受的。

(1)WAV格式是微软研发的一种声音文件格式

(2)MP3采用了感知音频编码(Perceptual Audio Coding)。人耳感知的声音的频率范围是20-20kHZ,MP3中去除了大量的冗余信号好无关信号。编码器通过混合滤波器组将原始声音转到频率域中,利用心理声学模型估算刚好被人耳察觉的噪声水平,在经过量化,将其转换为哈夫曼编码,形成MP3位流。解码器的工作主要是从编码后的谱线成分中通过反量化和逆变换提取声音信号。

8.图片:

(1)矢量图

矢量文件岁图形中分每个元素对象践进行描述,每个元素对象都是一个独立的实体(这个意思是是每一个都描述?)描述的信息包括颜色,性状,轮廓,大小和位置等属性。优势就是:由于描述的是一个对象信息,则这个描述可以用“连续”的方式表达

矢量图_百度百科

https://baike.baidu.com/item/%E7%9F%A2%E9%87%8F%E5%9B%BE/2490766

(2)标量图

一般来说,人们在记录(例如摄影)的时候会使标量图。

JPG压缩的原理:

jpg图片的压缩原理是什么?

http://www.360doc.com/content/17/0901/18/41193811_683881904.shtml

9.视频

H.264编码

H.265与H.264的差异详解 - CSDN博客
https://blog.csdn.net/fireroll/article/details/77827156

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值