数学之美（吴军著）学习总结和经典摘抄

最新推荐文章于 2024-09-08 23:45:49 发布

阳光的颜色

最新推荐文章于 2024-09-08 23:45:49 发布

阅读量3.8k

点赞数 2

分类专栏：数学之美

本文链接：https://blog.csdn.net/sxhlovehmm/article/details/40957781

版权

数学之美专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第1章语言和文字 VS数字和信息

1.不同的文明，因为地域的原因，历史上相互隔绝，便会有不同的文字。随着文明的融合与冲突，不同文明下的人们需要交流，或者说通信，那么翻译的需求便产生了。翻译这件事之所以能达成，仅仅是因为 不同的文字系统在记录信息的能力上是等价的 。（这个结论很重要）进一步讲，文字只是信息的载体，而并非信息本身。那么不用文字，而用其它的载体（比如数字）是否可以存储同样意义的信息呢？这个答案是肯定的，这也是我们今天现代通信的基础。(page4)

2.罗塞塔石碑的两点指导意义。1）信息冗余是信息安全的保障。 2）语言的数据，我们称之为语料，尤其是双语或者多语的对照语料对翻译至关重要，它是我们从事机器翻译研究的基础。(page6)

3.在罗马体系的文字中，总体来讲，常用字短，生僻字长。这完全符合信息论证最短编码的原理。(page11)

4.通信时，如果信道较宽，信息不必压缩就可以直接传递；而如果信道很窄，信息在传递之前就要尽可能地压缩，然后在接收端解压缩。(page11)

第2章自然语言处理---从规则到统计

1.基于统计的自然语言处理方法，在数学模型上和通信是相通的，甚至是相同的。因此，在数学意义上自然语言处理又和语言的初衷--通信联系在了一起。(page26)

2.自然语言在演变的过程中，产生了词义和上下文相关的特性。因此，它的文法是上下文有关文法，而程序语言是我们人为设计的，为了便于计算机解码的上下文无关文法，相比自然语言简单的多。理解两者的计算量不可同日而语。(page21)

第3章统计语言模型

1.自然语言从它产生开始，逐渐演变成一种上下文相关的信息表达和传递的方式，因此让计算机处理自然语言，一个基本的问题就是为自然语言这种上下文相关特性建立数学模型。这个数学模型就是自然语言处理中常说的统计语言模型，它是今天所有自然语言处理的基础，并且广泛应用与机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询(page27)。

2.统计模型：判断一个句子是否合理，就看看它的可能性大小如何。至于可能性就用概率来衡量。这个方法更普通而严格的描述是：假定S表示某个有意义的句子，由一连串特定顺序排列的词w1,w2,...,wn组成，这里n是句子的长度。现在，我们想知道S在文本中出现的可能性，也就是数学上所说的S的概率P(S)。(page28)

3.模型的训练。使用语言模型需要知道模型中所有的条件概率，我们称之为模型的参数。通过对语料的统计，得到这些参数的过程称作模型的训练。(page33)

第4章谈谈中文分词

1.在第3章谈到可以利用统计语言模型进行自然语言处理，而这些语言模型是建立在词的基础之上的，因为词是表达语义的最小单位。对于汉语，词之间没有明显的分界符，因此需要对句子分词，才能做进一步的自然语言处理。(page41)

2.分词器示意图在page44，图4.1.

3.中文分词以统计语言模型为基础，经过几十年的发展和完善，今天基本上可以看做一个已经解决的问题。不同的分词器有好有坏，主要的差别在于：数据的使用和工程实现的精度。(page48)

第5章隐含马尔可夫模型

1.隐含马尔可夫模型是一个并不复杂的数学模型，到目前为止，它一直被认为是解决大多数自然语言处理问题最为快速、有效的方法。它成功地解决了复杂的语音识别、机器翻译等问题。当我们看完这些复杂的问题是如何通过简单的模型描述和解决时，会不得不由衷的感叹数学模型之妙。(page51)

2.隐含马尔可夫模型的定义和图示在page53和page54。

3.围绕着马尔可夫模型有三个基本问题：

(1).给定一个模型，如何计算某个特定的输出序列的概率。（通过Forward-Backward算法解决）

(2) .给定一个模型和某个特定的输出序列，如何找到最可能产生这个输出的状态序列。（通过维特比算法解决）

(3).给定足够量的观测数据，如何估计隐含马尔科夫模型的参数。（通过鲍姆-韦尔奇算法解决）(page55)

4.隐含马尔科夫模型最初应用与通信领域，继而推广到语音和语音处理中，成为连接自然语言处理和通信的桥梁。同时隐含马尔科夫模型也是机器学习的主要工具之一。和几乎所有的机器学习的模型工具一样，它需要一个训练算法（鲍姆韦尔奇算法）和使用时的解码算法（维特比算法），掌握了这两类算法，就基本上可以使用隐含马尔科夫模型这个工具了。(page58)

第6章信息的度量和作用

1.香农在他的论文“通信的数学原理”，提出了信息熵（shang）的概念,解决的信息的度量问题，并且量化出信息的作用。(page59)

2. 一条信息的信息量和它的不确定性有着直接的关系。比如说，我们要搞清楚我们一无所知的事情，就需要了解大量的信息。所以，从这个角度来看，可以认为，信息量就等于不确定性的多少。(page59)

3.信息熵的公式在page60，公式6-1.信息熵一般用H表示，单位是比特。任意一个随机变量X，它的熵的定义如下：公式6-2。变量的不确定性越大，熵也就越大，把它搞清楚需要的信息量也就越大。(page61)

4.关于冗余度：如果一本书重复的内容很多，它的信息量就小，冗余度就大。不同的语言冗余度差别很大，而汉语在所有的语言中是冗余度较小的。(page61)

5.信息的作用自古以来，信息和消除不确定性是相联系的。信息是消除系统不确定性的唯一办法。一个事物内部存在着随机性，也就是不确定性，假定为U，而从外部消除这个不确定性唯一的办法是引入信息I，而引入的信息量取决于这个不确定性的大小，即I>U才行。当I<U时，这些信息可以消除一部分不确定性，也就是说新的不确定性U'=U=I。(page63)

6.网页搜索本质就是从大量的网页中，找到用户输入的搜索词最相关的几个网页。网页搜索本质也是利用信息消除不确定性的过程。如果提供的信息量不过多，比如搜索词是常用的关键词，诸如”中国“、”经济“之类的，那么会有很多相关的结果，用户可能还是无法选择。这是正确的做法是挖掘新的隐含的信息，比如网页本身的质量信息。如果这些信息还是不够消除不确定性，不妨再问问客户（是否能提供更多的信息）。这就是相关搜索的理论基础。合理利用信息，而不是玩什么公式和机器学习算法，是做好搜索的关键。(page63)

7.”相关“的信息也能够消除不确定性，为此，需要引入条件熵的概念(公式6-5)。概括：信息的作用在于消除不确定性，自然语言处理的大量问题就是寻找相关的信息。(page64)

8.互信息：这一概念作为对两个随机事件“相关性”的量化度量。机器翻译中，最难的两个问题之一是词义的二义性（另一个是，语义的二义性吧）问题。比如Bush一词可以使美国总统布什的名字，也可以是灌木丛的意思。解决这个问题真正简单却非常实用的方法是使用互信息。具体的解决方法大致如下：首先从大量文本中找出和总统布什一起出现的互信息最大的一些词，比如总统，美国，国会，华盛顿等等，当然用同样的方法找出和灌木丛一起出现的互信息最大的词，比如土壤、植物、野生等等。有了这两类词，在翻译Bush时，看看上下文中哪类相关的词多就可以了。(page67)

9.相对熵也是用来衡量相关性，但和变量的互信息不同，它用来衡量两个取值为正数的函数的相似性。利用相对熵可以得到信息检索中最重要的一个概念：词频率-逆向文档频率。(page68)

10. 信息熵不仅是对信息的量化度量，而且是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的指导意义。信息熵的物理含义是对一个信息系统不确定性的度量，这一点上，它和热力学中熵的概念相同，因为后者是对于一个系统无序的度量。