第一章 文字和语言vs数字和信息

本文探讨了人类从最初的动物吼声传递信息进化到文字编码的过程,介绍了数字、文字和进制的起源。强调了歧义性、信道宽窄和校验在信息传递中的作用,并指出古代文字因信道限制而力求简洁。同时,文章提到了编码规则如最短编码原理,并探讨了通信原理如何应用于自然语言处理。
摘要由CSDN通过智能技术生成

历史起源

远古时代,动物们是通过吼声来传递信息的,吼声的特征蕴含了一定的信息,如有食物,表达敌意等。这是信息最简单的表示传播方法。

但是当信息开始变得复杂多样时,比如:

  • 我去追那只快病死的鹿,把他赶到东边,你在东边守着
  • 我去追那只快病死的鹿,把他赶到西边,你在西边守着
  • 我去追那只小鹿,把他赶到悬崖上,你在那守着
  • 你去追那只快病死的鹿,把他赶到西边,你在西边守着

此时如果再使用吼声来表示上面的情况就有点无能为力了,因此我们的祖先将“我”,“你”,“东边”,“西边”等意思抽象出来,通过它们的排列来表示上述的语句,就形成了文字。

数字的产生也是来自于实际生产生活中的需要,最重要的不是表示数字使用什么符号,而是进制。对大数的表示,采用进制之后会方便很多。一万不再需要一万个点,而是可以按一定的规则使用“万”“千”“百”“十”来表示。印度人更进一步,发明的阿拉伯数字的编码方法解决了我们小时候思考的问题:万万为亿,万亿为兆,兆兆是什么?通过位数的方法解决了量词不够的问题。

不变的原理

歧义性

出于表达的需要,早期的人类文明不约而同的创造了大约5000个左右的文字,尽管形状各异,但本质都只是符号而已。文字数量并未增加的原因一是人的记忆力优先,二是文字出现了多义性,但多义性也是歧义性。编码时使用多义性来避免多使用一个符号,解码上便要耗费精力来对多义进行取舍,在实际操作中取舍依靠的是上下文。歧义性的处理到今天仍然是这个原理。

信道

中国古代的文字是相当简短的,甚至称为“微言大义”,但是语言学研究表明,中国古代人们说的文字可能和今天的白话文一样冗长,背后的原因是信道的宽窄。

在通信时,如果信道宽,则信息不必压缩直接传输。若信道窄,则需要发送前压缩,接收后解压。

口语的信道是空气,空气传播快且方便,则信道宽。人们说话方便,语言可以冗长,但求直白,易懂,无歧义。文字的信道是纸张,纸笔难求,故而信道窄。在纸上书写文字代价较大,因此要求文字简短,相当于压缩。阅读的人也需要一定的阅读能力,相当于接受后解压。

校验

校验最早的使用场景犹太人抄写《圣经》,《圣经》在传播的过程中发生过多次修订,在抄写的过程容易发生错误,犹太人在每一行,一段,一页抄写完之后,将其中的文字对应的数字累加起来,这个数字便作为校验码,与原本上的数字核对,这便是校验的原理,使用冗余信息来保证正确性。

编码规则

无论是象形文字还是字母文字,都是常用的简单,不常用的复杂,这是信息论中的最短编码原理。Huffman编码便采用了这种思想,频率高的字符使用较短的编码。

思考

语言的本质是用来传递表示信息,而通信是研究信息交流交换的学科,我感觉不少通信中的原理可以用于自然语言处理中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值