《数学之美》读书笔记05-0105-CSDN博客

本文链接：https://blog.csdn.net/asuluoluo_di/article/details/128563431

第四章谈谈分词

1.关于分词还有两点要说明。首先，这个问题属于已经解决的问题，不是什么难题了。在工业界，只要采用基本的统计语言模型，加上一些业界熟知的技巧就能得到很好的结果，不值得再去花很大的精力去做研究，因为即使能够进一步提高准确率，提升的空间也很有限。第二，英语和主要西方语言原本是没有分词问题的，除了要做文法分析找词组。由于书写时没有空格，所以，用来对中文进行分词的技术，也在英语的手写体识别中派上了用场。

从书上的例子可以看出，不同的分法，最后得出的结果差别很大。不同的应用实现的功能不同，那么就要根据系统面向的客户以及其具体实现的功能等等因素选择分词的方法，究竟是简单的分词进行匹配，还是根据复合词进行匹配？
同时在本章中还提到了一种找到最佳分词的方法，即通过动态规划查找分词后句子出现概率最大的概率–维特比方法（后续补充）

2.针对不同的应用，可以让一个分词器同时支持不同层次的词的切分（减少构造不同分词器的浪费）。如清华大学既可以被看成一个整体，也可以被切分开，然后有不同的应用自行决定切分的颗粒度。
首先需要一个基本词表和一个复合词表。基本词表为无法再分的词。复合词表包含复合词以及它们由哪些基本词构成。
接下来根据基本词表和复合词表各建立一个语言模型。

基本词表的语言模型中字串是输入，词串是输出。
复合词表的语言模型中基本词串是输入，复合词串是输出。
词表和语言模型这两个数据库改变了，但分词器是完全相同的。
避免了构造多个分词器。减少了浪费。