数学之美-读书笔记-1-5章

最新推荐文章于 2019-12-18 14:12:07 发布

鹏鹏~

最新推荐文章于 2019-12-18 14:12:07 发布

阅读量386

点赞数

分类专栏： Others 文章标签：数学数学之美读书笔记

本文链接：https://blog.csdn.net/qq_36321889/article/details/100151581

版权

第1章文字和语言vs数字和信息

本章带我们回到远古，回到语言、文字和数字产生的时代；

信息

早期人类会传播信息嘛？早期的人类如何传播信息？

早期的人类其实就已经会传播信息了；
只不过当时的信息比较简单，吱吱呀呀的声音；
比如用某种特定的声音提示伙伴，表示“那里有只熊”；同伴可能也会吱吱两声，表示收到了信息

就上面简单的信息传递过程，其实也体现出了信息传播的模型：

信息在信息源处经过编码传入信道经过解码传给接收者
三要素：信息源、信道、接收者

因为早期人类了解到的信息很少，因此它们并不需要语言和数字，比如，它们想说那里有只熊，只需要手指着，呀呀两声就好了；

文字和数字

思考下语言是如何产生的？

作者并没有解释，只是简单的说了下：
我们祖先迅速学习新事物，语言也越来越丰富，越来越抽象

随着文明的发展，语言的共同要素：物体、数量、动作便被抽象出来；

当语言和词汇多到一定程度时，人们记不住了，高效记录信息的需求就产生了，这便是文字的起源；

随着文明的发展，文字越来越多，问题是太多的话人们记不住，于是出现了“概念的第一次概括和归类”，这种概括和归类与机器学习中的聚类算法十分类似；

文字经过归类后，难免会产生歧义，比如中国古代的文言文，同理中国古代学者对儒家经典的注释和正义，其实都是在按照自己的理解做消除歧义性的工作；

埃及人通过文字记录了他们生活中很重要的信息，这使得我们对5000年前的埃及的了解要比1000年前的玛雅文明的了解要多得多，这要归功于埃及人通过文字记录了他们生活中最重要的信息，这能给我们一些指导意义：

信息的冗余是信息安全的保障，这里的信息安全是考虑的是信息的保存，而不是隐私保护；
语言的数据，称为语料对翻译至关重要，它是我们从事机器翻译研究的基础；

那么数字为什么出现呢？

是因为人们的财产多到了需要数一数才能知道的程度，所以产生了计数系统；
这个解释很有意思，不过很有道理；

最简单的计数系统：掰手指，所以手指头不够用了怎么办？简单暴力的方法：用脚指！

历史证明，使用脚指的这种文明消失掉了，那就是玛雅文明，他们采用20进制，因此玛雅人的一个世纪是四百年，而2012年刚好是这个太阳纪的最后一年，这就是讹传的世界末日；

我们的祖先也发现了手指头不够用了，我们的祖先很聪明，他们发明了进位制，中国人用个十百千万兆亿，罗马人用I表示1，V表示5，X表示10，L表示50等；

那么10亿分别用这两种方法如何表示？

如果用罗马人的计数法表示的话，可能需要写满一个黑板。
而我们的祖先的表示方法就是 10亿，很简洁；
所以得出结论，中国人的编码要比罗马人的编码有效；

描述数字最厉害的人是古印度人，他们发明了包括0在内的10个阿拉伯数字，阿拉伯数字我们至今仍然在使用；

文字和语言背后的数学

拼音文字诞生于两河流域附近，之后经过了很多年的发展，传给了古希腊人发展，在他们那里拼写和读音已经紧密结合起来了；

从象形文字到拼音文字是一个飞跃，因为人们已经懂得对信息进行编码；

在罗马体系的文字中，常用字短，生僻字长，这就是信息论中的最短编码理论；

古希腊时期，语法出现，语法可以理解成语言的编码和解码规则，但是任何语言都有语法规则覆盖不到的地方，这些例外和不精确使得我们的语言丰富多彩；

语法的地位如何呢？

是让语言的表达更准确、更丰富的至关重要的因素；
但是语法也有其缺点，即不能覆盖所有；

小结

讲了文字、语言和数字的历史，目的是帮助读者感语言和数字天然的、内在的联系；

比如抽象概括的思想、比如建立语法规则的思想等等；

第2章自然语言处理-从规则到统计

前言

机器能不能理解自然语言？这里涉及到两个认知层面的问题：

机器能不能处理自然语言
如果能，是不是和人处理的方式一样？

这两个问题的答案都是YES；

机器智能

图灵测试的概念：让人和机器交流，如果人无法判断自己交流的对象是人还是机器，就说明这个机器有智能了；

20世纪50年代到70年代，人们一致认为：要让机器翻译或语音识别，只有让机器能理解自然语言，而做到这一点就必须让机器拥有类似我们人类这样的智能；事实证明，这个观点是错误的；

20世纪60年代，摆在科学家面前的问题是怎样才能理解自然语言，而关键点是分析语句和获取语义，然后建立了一系列语法规则，当然规则可能会非常庞大，而且建立的语法规则不能做到完全覆盖；

从数学角度讲，程序设计语言是一种上下文无关文法，而自然语言是上下文有关文法；
前者算法的复杂度是语言长度的2次方，后者算法的复杂度是语言长度的6次方；
对于这样6次方的复杂度：当时的机器是处理不了的，即使今天，效果也不会很好；
所以说，那时人们的错误貌似没有意识到，使用规则性方法来解决该问题的复杂度会如此之高！

从规则到统计

1970年后，统计语言学出现，关键人物是贾里尼克和他领导的IBM华生实验室，他们利用统计模型，将语音识别率从70%提高到90%；

当时基于统计学方法的核心模型是通信系统加隐含马尔可夫模型；

一直到20世纪90年代末期，统计学方法才变得更有说服力，其中一部分原因也是那些老科学家的退休，他们不愿接受新的想法···

小结

基于统计学的数学模型和通信模型是相通的，但是科学家们，用了几十年的时间才意识到这一点；

另外前段时间还有同学跟我说，现在的自动驾驶，国家必须出一些相关的法律法规来规定一些特殊情况，比如如何非撞不可，是撞老人还是撞小孩，我们争论了半天···，我说，现在的统计学模型，你根本无法加这种规则啊，这里面的判断，全都是一堆矩阵数字，根本没法理解···，争论了一晚上都争论无果；

不过我知道，规则这种东西是无穷无尽的，而现在的自动驾驶的基本方向也是用数据集去训练，都是统计学的方法，根本不是规则化，所以我觉得我那位同学说的很没谱；

第3章统计语言模型

有关自然语言的处理，可以用一句话来概括：

如何给上下文有关文法做一个合理、有效的数学模型？

1用数学的方法描述语言规律

假设Ｓ是一个句子， $S=w_1, w_2, w_3, ···, w_n$ ，其中wi表示词，那么P(S)就可以表示成：

最低0.47元/天解锁文章

鹏鹏~

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数学之美-读书笔记-1-5章

文章目录第1章文字和语言vs数字和信息信息文字和数字文字和语言背后的数学小结第2章自然语言处理-从规则到统计前言机器智能从规则到统计小结第3章统计语言模型1用数学的方法描述语言规律2延伸阅读2.1高阶语言模型2.2模型的训练、零概率问题和平滑方法2.3语料的选取问题个人总结第4章谈谈分词1中文分词方法的演变2延伸阅读2.1分词的一致性2.2词的颗粒度和层次第5章隐含马尔可夫模型1通信模型...
复制链接

扫一扫