数学之美笔录(２):中文分词

最新推荐文章于 2024-09-25 13:00:00 发布

One2zeror

最新推荐文章于 2024-09-25 13:00:00 发布

阅读量757

点赞数

分类专栏：数学之美文章标签：数学之美中文分词

本文链接：https://blog.csdn.net/kzq_qmi/article/details/46714207

版权

本文探讨了中文分词的重要性，介绍了从查字典的简单方法到统计语言模型的复杂解决方案，特别是如何使用维特比算法解决分词二义性问题。分词的颗粒度在不同应用场景中有差异，如机器翻译和语音识别。此外，分词的不一致性和错误也是挑战。

摘要由CSDN通过智能技术生成

中文分词：统计语言模型在中文处理中的一个应用

　　前一篇文章（数学之美笔录(1):统计语言模型）我们提到使用统计语言模型进行自然语言的处理，而这些语言模型是建立在词的基础上，因为词是表达语义的最小单位。西方的拼音语言，词之间有明确的分界符，统计和使用语言模型处理相对简单。而对于汉语等东方语言，词之间没有明确的分界符（比如：我颜值很高。没有像英文一样的空格之类的分界符），这就需要先对句子进行中文分词。
　　例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词：
　　中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。

　　中文分词最简单的方式是查字典，这种方式最早由北京航空航天大学的梁南元教授提出。简单的来说，就是把一个句子从左到右扫描一遍，遇到字典里有的词就标识出来，遇到复合词（比如“上海大学”）就找最长的词匹配，遇到不认识的字串就分割成单字词。
　　八十年代，哈工大的王晓龙博士把它理论化，发展成最少词数的分词理论，即一句话应该分成数量最少的词串。这种方法一个明显的不足是当遇到有二义性（有双重理解意思）的分割时就无能为力了。比如，对短语 “发展中国家” 正确的分割是“发展-中-国家”，而从左向右查字典的办法会将它分割成“发展-中国-家”，显然是错了。另外，并非所有的最长匹配都一定是正确的。比如“上海大学城书店”的正确分词应该是 “上海-大学城-书店，” 而不是 “上海大学-城-书店”。
　　 90年前后，清华大