数学之美-第一章-文字和语言vs数字和信息

最新推荐文章于 2021-07-19 22:59:43 发布

Cathy'sShelter

最新推荐文章于 2021-07-19 22:59:43 发布

阅读量146

点赞数

分类专栏：读书

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41750467/article/details/114943618

版权

读书专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

信息传播模型
聚类、消歧
翻译、语料库
计数系统
编码和最短编码
校验位
解码的规则、语法

信息传播模型

在这里插入图片描述
早期人类交流举例，用某种特定的声音表示“那里有只熊”，同伴“呀呀”回应两声。早期人类的交流方式与现在的通信中的信息传播模型相同。

聚类、消歧

随着文明的进步，信息量增加了，但是因为没有人能够记住大量的文字，因此出现了概念的“聚类”。比如，在中国的象形文字中，“日”本意是太阳，同时又指的是一天；在古代埃及的象形文字中，读音相同的词可能用同一个符号进行记录。这种概念上的聚类，在原理上与今天NLP或者ML中的聚类有很大的相似性。
文字按照意思来聚类，最终会带来一些歧义性，解决这个问题的方法，就是依靠上下文。借助上下文，大多数情况下的多义字的去除歧义（Disambiguation）都可以做到。

翻译、语料库

翻译能够实现，就因为不同文字系统在记录信息上的能力是等价的。文字只是信息的载体，而不是信息本身。
罗塞塔石碑就起到了一个翻译的作用。
信息的冗余是信息安全的保障。只要有一份石碑内容保存下来，原有的信息就不会丢失。
语言的数据，我们称之为语料。

计数系统

之所以采用十进制，是因为人有十个手指头。）
阿拉伯数字的革命性在于标志着数字与文字的分离，这在客观上让自然语言研究和数学在几千年里没有重合的轨迹，且越走越远。

编码和最短编码

从象形文字到拼音文字是一个飞跃，因为人类在描述物体的方式上，从物体的外表进化到了抽象的概念，同时不自觉采用了对信息的编码。
在罗马体系文字中，常用字短，生僻字长，符合信息论中最短编码原理。
在书写文字的媒介价格高的时候，古文非常简洁、但是难懂，而古代的口语语句较长并且易于理解，符合通信的一个原理：如果信道较宽，那么信息不必压缩，就可以直接传递；如果信道较窄，那么需要在传递前尽可能压缩信息，收到后在接收端解压。

校验位

犹太人抄写圣经后，每个字母对应一个数字，需要把每一行的文字加起来，把每一列的文字加起来，形成校验码。

解码的规则、语法

语法就是语言的编码和解码规则。
词可以被认为是有限而且封闭的集合，而语言是无限和开放的集合。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数学之美-第一章-文字和语言vs数字和信息

文章目录信息传播模型聚类、消歧翻译、语料库计数系统编码和最短编码校验位解码的规则、语法信息传播模型早期人类交流举例，用某种特定的声音表示“那里有只熊”，同伴“呀呀”回应两声。早期人类的交流方式与现在的通信中的信息传播模型相同。聚类、消歧随着文明的进步，信息量增加了，但是因为没有人能够记住大量的文字，因此出现了概念的“聚类”。比如，在中国的象形文字中，“日”本意是太阳，同时又指的是一天；在古代埃及的象形文字中，读音相同的词可能用同一个符号进行记录。这种概念上的聚类，在原理上与今天NLP或者ML中的聚
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。