《数学之美》
吴军
第一章:文字和语言vs数字和信息
主要内容概述:“语言和数学的产生都是为了同一个目的——记录和传播信息”。科技是伴随着人类的不断进化而发展进步的。信息是从人类诞生(雏形时期)开始就已经产生,并与现在的通信模式没有什么不同。同时随着信息量的增加,认字也随之出现了。文字只是信息的载体,而非信息本身,所以不同的载体可能存储着相同意义的信息。在对事物的描述上也从外表向抽象发展,这不自觉的实现了对信息的编码,且编码方式很符合现在的编码原理。人员前人在语言文字上使用的方法,如今的信息科学中依然实用。
关键词: 第一章提到了现阶段自然语言处理中的概念在历史中的应用,包括:通信的原理、信息传播模型、信息编码和最短编码、解码规则及语法、聚类、校验位、双语对照文本,语料库和机器翻译、多义性和利用上下文消除歧义性。
第二章:自然语言处理——从规则到统计
主要内容概述: 人们对自然语言处理的认知从最开始的“鸟飞派”思想,到如今理解的依靠统计学理论。并且已经在相应领域产生很好的效果。2005年后,随着Google基于统计方法的翻译系统全面超过基于规则方法的SysTran翻译系统,彻底将基于规则的自然语言处理方法消灭。自然语言处理的研究也从单纯的句法分析和语义理解转换到了机器翻译、语义识别、文本生成、数据挖掘和知识获取。
第三章:统计语言模型
主要内容概述: 自然语言处理的基础,广泛应用于机器翻译、语音识别、手写体识别等。其中马尔可夫模型最具代表性。
第四章:谈谈中文分词
主要内容概述: 而这些语言模型都是建立在词之上的,因此对句子进行分词才能进一步自然语言处理。从最开始的“查字典”方法,最少词数理论、到之后的统计语言模型,有效的降低了分词的错误率。
第五章:隐马尔科夫模型
被认为是解决大多数自然语言处理问题最为快速、有效的方法。解决了像语音识别、机器翻译等多种复杂问题。其原理就是当前值只与前一时刻的值有关,和其他值无关。
第六章:信息的度量和作用
信息的作用在于消除不确定性,而自然语言处理的大量问题都是在找相关信息。从而出现了香农提出的著名概念:信息熵。