这是我开始读的第一本书,希望以后的我能博览群书
数学之美:
第一章:文字和语言vs数字和信息
文字按照意思来聚类,最终会带来一些歧义性,而解决这个问题的放就是根据上下文。
第二章:自然语言处理——从规则到统计
机器翻译和语音识别并不是靠计算机理解了自然语言才实现的,事实上它们全都是靠的数学,更准确的说是靠统计。
第三章:统计语言模型
通过语言词语出现的频率来判定识别语音输入的文字,最常用到的句子概率越高,越容易被识别。或者已经确定了一个词,然后下一个词出现的频率,利用条件概率。
第四章:谈谈分词
分词也是基于统计语言模型来进行分词,并决解了分词的二义性问题。