从这里引入
还记得这一张图吗?
这是人教版生物必修二上的莫尔斯电码插图,用于遗传密码的破译(选学)的引入,这里我也使用莫尔斯电码来进行关于信息传输的科普。
信息传输的要求
正常的信息传输,关键点有三:
1. 准确性
2. 适用性
3. 实用性
关于保密方面的要求这里不做讨论
下面对莫尔斯电码进行分析
- 准确性
莫尔斯密码有两种“符号”用来表示字符:点(.)和划(-),或叫“滴”(Dit)和“答”(Dah)。点的长度决定
了发报的速度,并且被当作发报时间参考。莫尔斯编码简单且一字对一码,其二义性很小,准确性足以满足。 - 适用性
莫尔斯电码编码简单,传输方式广泛,不仅仅用于电报,即使是简单的手电筒,旗子甚至是眨眼或者敲击,更广泛的说,只要有两种以上不同状态,就可以用来表示莫尔斯电码,其适用性也是足以满足要求的。尽管由于通讯号技术之进步,各国已于1999年停止使用摩尔斯码,但由于它所占的频宽最少,又具一种技术及艺术的特性,在实际生活中有广泛的应用。如常见的SOS信号。 - 实用性
一条信息是否实用,取决于这条信息是否易于传输与解读,莫尔斯电码在编码时关注了传输方面的要求。请看下面这一张图片:
![]()
英语语言材料中的字母频率
莫尔斯电码中越常用的字母,其编码符号就越短;而发出各字母的用时由快到慢顺序是e it san hurdm wgvlfbk opjxcz yq
有没有发现什么?
莫尔斯电码发出字母的顺序快慢与字母频率基本保持一致,这就保证了信息传输的高效性,使得莫尔斯电码更具实用性。
了解其他内容
莫尔斯电码仅仅是信息传输的一种方式,在现代社会最常见的就是计算机类型的信息传输,总的来说还是要满足几个信息传输的要求,同时要对保密进行进一步的处理。
另外传输过程中还需要进行压缩及解压以节约网络资源,比如使用哈夫曼编码(Huffman Coding)(一种用于无损数据压缩的熵编码算法)来进行压缩编码,原理为使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的,可以说莫尔斯电码是一种压缩率不太高的传输方式,计算机中应用各种压缩可以显著提高信息传输效率,节省传输带宽及储存空间。
各种常见的压缩格式是在综合使用了各种压缩算法后生成的一种文件格式,使用不同扩展名使得计算机可以识别,如文件常见压缩格式zip,rar, 7z,图片常见压缩格式JPEG,GIF,PNG。
附上哈夫曼编码的压缩过程
实现霍夫曼编码的方式主要是创建一个二叉树和其节点。这些树的节点可以存储在数组里,数组的大小为符号(symbols)数的大小n,而节点分别是终端节点(叶节点)与非终端节点(内部节点)。
一开始,所有的节点都是终端节点,节点内有三个字段:
符号(Symbol)
权重(Weight、Probabilities、Frequency)
指向父节点的链接(Link to its parent node)
而非终端节点内有四个字段:
权重(Weight、Probabilities、Frequency)
指向两个子节点的 链接(Links to two child node)
指向父节点的链接(Link to its parent node)
基本上,我们用’0’与’1’分别代表指向左子节点与右子节点,最后为完成的二叉树共有n个终端节点与n-1个非终端节点,去除了不必要的符号并产生最佳的编码长度。
过程中,每个终端节点都包含着一个权重(Weight、Probabilities、Frequency),两两终端节点结合会产生一个新节点,新节点的权重是由两个权重最小的终端节点权重之总和,并持续进行此过程直到只剩下一个节点为止。
实现霍夫曼树的方式有很多种,可以使用优先队列(Priority Queue)简单达成这个过程,给与权重较低的符号较高的优先级(Priority),算法如下:
1. 把n个终端节点加入优先队列,则n个节点都有一个优先权Pi,1 ≤ i ≤ n
⒉ 如果队列内的节点数>1,则:
⑴从队列中移除两个最小的Pi节点,即连续做两次remove(min(Pi), Priority_Queue)
⑵产生一个新节点,此节点为(1)之移除节点之父节点,而此节点的权重值为(1)两节点之权重和
⑶把(2)产生之节点加入优先队列中
⒊ 最后在优先队列里的点为树的根节点(root)
而此算法的时间复杂度( Time Complexity)为O(n log n);因为有n个终端节点,所以树总共有2n-1个节点,使用优先队列每个循环须Olog n)。此外,有一个更快的方式使时间复杂度降至线性时间(Linear Time)O(n),就是使用两个队列(Queue)创件霍夫曼树。第一个队列用来存储n个符号(即n个终端节点)的权重,第二个队列用来存储两两权重的合(即非终端节点)。此法可保证第二个队列的前端(Front)权重永远都是最小值,且方法如下:
⒈ 把n个终端节点加入第一个队列(依照权重大小排列,最小在前端)
⒉ 如果队列内的节点数>1,则:
⑴从队列前端移除两个最低权重的节点
⑵将(1)中移除的两个节点权重相加合成一个新节点
⑶加入第二个队列
⒊ 最后在第一个队列的节点为根节点
虽然使用此方法比使用优先队列的时间复杂度还低,但是注意此法的第1项,节点必须依照权重大小加入队列中,如果节点加入顺序不按大小,则需要经过排序,则至少花了O(n log n)的时间复杂度计算。
但是在不同的状况考量下,时间复杂度并非是最重要的,如果我们今天考虑英文字母的出现频率,变量n就是英文字母的26个字母,则使用哪一种算法时间复杂度都不会影响很大,因为n不是一笔庞大的数字。