数学之美(吴军著)学习总结和经典摘抄

第1章 语言和文字 VS数字和信息


1.不同的文明,因为地域的原因,历史上相互隔绝,便会有不同的文字。随着文明的融合与冲突,不同文明下的人们需要交流,或者说通信,那么翻译的需求便产生了。翻译这件事之所以能达成,仅仅是因为 不同的文字系统在记录信息的能力上是等价的 。(这个结论很重要)进一步讲,文字只是信息的载体,而并非信息本身。那么不用文字,而用其它的载体(比如数字)是否可以存储同样意义的信息呢?这个答案是肯定的,这也是我们今天现代通信的基础。(page4)
2.罗塞塔石碑的两点指导意义。1)信息冗余是信息安全的保障。 2)语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。(page6)
3.在罗马体系的文字中,总体来讲,常用字短,生僻字长。这完全符合信息论证最短编码的原理。(page11)
4.通信时,如果信道较宽,信息不必压缩就可以直接传递;而如果信道很窄,信息在传递之前就要尽可能地压缩,然后在接收端解压缩。(page11)

第2章 自然语言处理---从规则到统计


1.基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至是相同的。因此,在数学意义上自然语言处理又和语言的初衷--通信联系在了一起。(page26)
2.自然语言在演变的过程中,产生了词义和上下文相关的特性。因此,它的文法是上下文有关文法,而程序语言是我们人为设计的,为了便于计算机解码的上下文无关文法,相比自然语言简单的多。理解两者的计算量不可同日而语。(page21)

第3章 统计语言模型


1.自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递的方式,因此让计算机处理自然语言,一个基本的问题就是为自然语言这种上下文相关特性建立数学模型。这个数学模型就是自然语言处理中常说的统计语言模型,它是今天所有自然语言处理的基础,并且广泛应用与机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询(page27)。
2.统计模型:判断一个句子是否合理,就看看它的可能性大小如何。至于可能性就用概率来衡量。这个方法更普通而严格的描述是:假定S表示某个有意义的句子,由一连串特定顺序排列的词w1,w2,...,wn组成,这里n是句子的长度。现在,我们想知道S在文本中出现的可能性,也就是数学上所说的S的概率P(S)。(page28)
3.模型的训练。 使用语言模型需要知道模型中所有的条件概率,我们称之为模型的参数。通过对语料的统计,得到这些参数的过程称作模型的训练。(page33)

第4章 谈谈中文分词


1.在第3章谈到可以利用统计语言模型进行自然语言处理,而这些语言模型是建立在词的基础之上的,因为词是表达语义的最小单位。对于汉语,词之间没有明显的分界符,因此需要对句子分词,才能做进一步的自然语言处理。(page41)
2.分词器示意图在page44,图4.1.
3.中文分词以统计语言模型为基础,经过几十年的发展和完善,今天基本上可以看做一个已经解决的问题。不同的分词器有好有坏,主要的差别在于:数据的使用和工程实现的精度。(page48)

第5章 隐含马尔可夫模型


1.隐含马尔可夫模型是一个并不复杂的数学模型,到目前为止,它一直被认为是解决大多数自然语言处理问题最为快速、有效的方法。它成功地解决了复杂的语音识别、机器翻译等问题。当我们看完这些复杂的问题是如何通过简单的模型描述和解决时,会不得不由衷的感叹数学模型之妙。(page51)
2.隐含马尔可夫模型的定义和图示在page53和page54。
3.围绕着马尔可夫模型有三个基本问题:
(1).给定一个模型,如何计算某个特定的输出序列的概率。(通过Forward-Backward算法解决)
  (2) .给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列。(通过维特比算法解决)
(3).给定足够量的观测数据,如何估计隐含马尔科夫模型的参数。(通过鲍姆-韦尔奇算法解决)(page55)
4.隐含马尔科夫模型最初应用与通信领域,继而推广到语音和语音处理中,成为连接自然语言处理和通信的桥梁。同时隐含马尔科夫模型也是机器学习的主要工具之一。和几乎所有的机器学习的模型工具一样,它需要一个训练算法(鲍姆韦尔奇算法)和使用时的解码算法(维特比算法),掌握了这两类算法,就基本上可以使用隐含马尔科夫模型这个工具了。(page58)


第6章 信息的度量和作用


1.香农在他的论文“通信的数学原理”,提出了信息熵(shang)的概念,解决的信息的度量问题,并且量化出信息的作用。(page59)
2. 一条信息的信息量和它的不确定性有着直接的关系。比如说,我们要搞清楚我们一无所知的事情,就需要了解大量的信息。所以,从这个角度来看,可以认为,信息量就等于不确定性的多少。(page59)
3.信息熵的公式在page60,公式6-1.信息熵一般用H表示,单位是比特。任意一个随机变量X,它的熵的定义如下:公式6-2。 变量的不确定性越大,熵也就越大,把它搞清楚需要的信息量也就越大。(page61)
4.关于冗余度:如果一本书重复的内容很多,它的信息量就小,冗余度就大。不同的语言冗余度差别很大,而汉语在所有的语言中是冗余度较小的。(page61)
5.信息的作用  自古以来,信息和消除不确定性是相联系的。信息是消除系统不确定性的唯一办法。 一个事物内部存在着随机性,也就是不确定性,假定为U,而从外部消除这个不确定性唯一的办法是引入信息I,而引入的信息量取决于这个不确定性的大小,即I>U才行。当I<U时,这些信息可以消除一部分不确定性,也就是说新的不确定性U'=U=I。(page63)
6.网页搜索本质就是从大量的网页中,找到用户输入的搜索词最相关的几个网页。网页搜索本质也是利用信息消除不确定性的过程。如果提供的信息量不过多,比如搜索词是常用的关键词,诸如”中国“、”经济“之类的,那么会有很多相关的结果,用户可能还是无法选择。这是正确的做法是挖掘新的隐含的信息,比如网页本身的质量信息。如果这些信息还是不够消除不确定性,不妨再问问客户(是否能提供更多的信息)。这就是相关搜索的理论基础。合理利用信息,而不是玩什么公式和机器学习算法,是做好搜索的关键。(page63)
7.”相关“的信息也能够消除不确定性,为此,需要引入条件熵的概念(公式6-5)。概括:信息的作用在于消除不确定性,自然语言处理的大量问题就是寻找相关的信息。(page64)
8.互信息:这一概念作为对两个随机事件“相关性”的量化度量。机器翻译中,最难的两个问题之一是词义的二义性(另一个是,语义的二义性吧)问题。比如Bush一词可以使美国总统布什的名字,也可以是灌木丛的意思。解决这个问题真正简单却非常实用的方法是使用互信息。具体的解决方法大致如下:首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如总统,美国,国会,华盛顿等等,当然用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两类词,在翻译Bush时,看看上下文中哪类相关的词多就可以了。(page67)
9.相对熵也是用来衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的函数的相似性。利用相对熵可以得到信息检索中最重要的一个概念:词频率-逆向文档频率(page68)
10. 信息熵不仅是对信息的量化度量,而且是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的指导意义。信息熵的物理含义是对一个信息系统不确定性的度量,这一点上,它和热力学中熵的概念相同,因为后者是对于一个系统无序的度量。







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值