分词

最新推荐文章于 2024-08-07 07:15:00 发布

Shingle_

最新推荐文章于 2024-08-07 07:15:00 发布

阅读量2.1k

点赞数 2

分类专栏：自然语言处理文章标签：分词维特比 Viterbi

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Shingle_/article/details/82502369

版权

本文介绍了中文分词的重要性及其挑战，包括越界型和覆盖型错误，以及颗粒度问题。讨论了基于字符串匹配的分词方法，特别是全切分方法中的维特比算法。维特比算法作为动态规划的一种应用，用于解决篱笆网络的最短路径问题，常见于语音识别、机器翻译和分词。同时提到了由字构词的分词方法，如使用HMM、CRF等模型进行序列标注。

摘要由CSDN通过智能技术生成

对于西方拼音语言来说，从词之间由明确的分界符，而很多亚洲语言（如汉语、日语、韩语、泰语）词之间没有明确的分界符，因此需要先对句子进行分词，才能做进一步的自然语言处理（也适用于英文词组的分割、或者手写识别，平板电脑、智能手机手写时单词间的空格可能不清楚）。

分词的输入是一串词，分词的输出是用分界符分割的一串词。

分词的不一致性问题：

越界型错误：“北京大学生” -> “北京大学”、“生”
覆盖型错误：“北京大学” -> “北”、“京”、“大”、“学”
颗粒度的不一致性

分词的颗粒问题：

在分词的同时，找到复合词的嵌套结构。如“北京”、“大学”、“北京大学”
机器翻译：一般来讲，颗粒度大翻译效果好。如“北京大学”
语音识别，网页搜索：一般来讲，颗粒度小效果好。如“北京”、“大学”

中文分词是一个已解决问题，只要采用统计语言模型，效果差不到哪去。一般不同应用该有不同的分词系统，需要针对不同的应用设计实现专门的分词系统。 构造分词器时，更好的做法是让一个分词器同时支持不同层次的词的切分，由不同的应用自行决定切分的颗粒度。通常中文分词工作的重点是继续做数据挖掘，不断完善复合词的词典（新词发现）。

基于字符串匹配的分词方法（“查字典”）

此方法按照不同的扫描方式，逐个查找词库进行分词。根据扫描方式可细分为：正向最大匹配，反向最大匹配，双向最大匹配，最小切分(即最短路径)；总之就是各种不同的启发规则。

全切分方法

它首先切分出与词库匹配的所有可能的词，再运用统计语言模型决定最优的切分结果。最好的一种分词方法应该保证分完词后这个句子出现的概率最大。

问题：穷举所有可能的分词方法并计算每种可能性的句子的概率，计算量相当大。

技巧：看成一个动态规划（Dynamic Programming）问题，利用维特比（Viterbi）算法快速地找到最佳分词。

维特比（Viterbi）算法

维特比算法是一个特殊但是应用最广的动态规划算法。利用动态规划，可以解决任何一个图中的最短路径问题。维特比算法是针对一个特殊的图—— 篱笆网络（Lattice） 的有向图最短路径问题而提出的。凡是使用隐含马尔可夫模型描述的问题都要用它来解码，如语音识别、机器翻译、拼音转汉字（中文输入法）、分词。

例如输入法，输入的可见序列为 $y_1, y_2,...,y_N$ ，而产生它们的隐含序列是 $x_1, x_2,...,x_N$

这里写图片描述

x 1, x 2, . . ., x N = a r g m a x

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分词

对于西方拼音语言来说，从词之间由明确的分界符，而很多亚洲语言（如汉语、日语、韩语、泰语）词之间没有明确的分界符，因此需要先对句子进行分词，才能做进一步的自然语言处理（也适用于英文词组的分割、或者手写识别，平板电脑、智能手机手写时单词间的空格可能不清楚）。分词的输入是一串词，分词的输出是用分界符分割的一串词。分词的不一致性问题：越界型错误：“北京大学生” -&gt; “北京大学”、“生...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。