数学之美-第一章-文字和语言vs数字和信息

信息传播模型

在这里插入图片描述
早期人类交流举例,用某种特定的声音表示“那里有只熊”,同伴“呀呀”回应两声。早期人类的交流方式与现在的通信中的信息传播模型相同。

聚类、消歧

随着文明的进步,信息量增加了,但是因为没有人能够记住大量的文字,因此出现了概念的“聚类”。比如,在中国的象形文字中,“日”本意是太阳,同时又指的是一天;在古代埃及的象形文字中,读音相同的词可能用同一个符号进行记录。这种概念上的聚类,在原理上与今天NLP或者ML中的聚类有很大的相似性。
文字按照意思来聚类,最终会带来一些歧义性,解决这个问题的方法,就是依靠上下文。借助上下文,大多数情况下的多义字的去除歧义(Disambiguation)都可以做到。

翻译、语料库

翻译能够实现,就因为不同文字系统在记录信息上的能力是等价的。文字只是信息的载体,而不是信息本身。
罗塞塔石碑就起到了一个翻译的作用。
信息的冗余是信息安全的保障。只要有一份石碑内容保存下来,原有的信息就不会丢失。
语言的数据,我们称之为语料。

计数系统

之所以采用十进制,是因为人有十个手指头。)
阿拉伯数字的革命性在于标志着数字与文字的分离,这在客观上让自然语言研究和数学在几千年里没有重合的轨迹,且越走越远。

编码和最短编码

从象形文字到拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的外表进化到了抽象的概念,同时不自觉采用了对信息的编码
在罗马体系文字中,常用字短,生僻字长,符合信息论中最短编码原理
在书写文字的媒介价格高的时候,古文非常简洁、但是难懂,而古代的口语语句较长并且易于理解,符合通信的一个原理:如果信道较宽,那么信息不必压缩,就可以直接传递;如果信道较窄,那么需要在传递前尽可能压缩信息,收到后在接收端解压。

校验位

犹太人抄写圣经后,每个字母对应一个数字,需要把每一行的文字加起来,把每一列的文字加起来,形成校验码。

解码的规则、语法

语法就是语言的编码和解码规则。
词可以被认为是有限而且封闭的集合,而语言是无限和开放的集合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值