分词

本文介绍了中文分词的重要性及其挑战,包括越界型和覆盖型错误,以及颗粒度问题。讨论了基于字符串匹配的分词方法,特别是全切分方法中的维特比算法。维特比算法作为动态规划的一种应用,用于解决篱笆网络的最短路径问题,常见于语音识别、机器翻译和分词。同时提到了由字构词的分词方法,如使用HMM、CRF等模型进行序列标注。
摘要由CSDN通过智能技术生成

对于西方拼音语言来说,从词之间由明确的分界符,而很多亚洲语言(如汉语、日语、韩语、泰语)词之间没有明确的分界符,因此需要先对句子进行分词,才能做进一步的自然语言处理(也适用于英文词组的分割、或者手写识别,平板电脑、智能手机手写时单词间的空格可能不清楚)。

分词的输入是一串词,分词的输出是用分界符分割的一串词。

分词的不一致性问题

  • 越界型错误:“北京大学生” -> “北京大学”、“生”
  • 覆盖型错误:“北京大学” -> “北”、“京”、“大”、“学”
  • 颗粒度的不一致性

分词的颗粒问题

  • 在分词的同时,找到复合词的嵌套结构。如“北京”、“大学”、“北京大学”
  • 机器翻译:一般来讲,颗粒度大翻译效果好。如“北京大学”
  • 语音识别,网页搜索:一般来讲,颗粒度小效果好。如“北京”、“大学”

中文分词是一个已解决问题,只要采用统计语言模型,效果差不到哪去。一般不同应用该有不同的分词系统,需要针对不同的应用设计实现专门的分词系统。 构造分词器时,更好的做法是让一个分词器同时支持不同层次的词的切分,由不同的应用自行决定切分的颗粒度。通常中文分词工作的重点是继续做数据挖掘,不断完善复合词的词典(新词发现)。

基于字符串匹配的分词方法(“查字典”)

此方法按照不同的扫描方式,逐个查找词库进行分词。根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分(即最短路径);总之就是各种不同的启发规则。

全切分方法

它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果。最好的一种分词方法应该保证分完词后这个句子出现的概率最大。

问题:穷举所有可能的分词方法并计算每种可能性的句子的概率,计算量相当大。

技巧:看成一个动态规划(Dynamic Programming)问题,利用维特比(Viterbi)算法快速地找到最佳分词。

维特比(Viterbi)算法

维特比算法是一个特殊但是应用最广的动态规划算法。利用动态规划,可以解决任何一个图中的最短路径问题。维特比算法是针对一个特殊的图—— 篱笆网络(Lattice) 的有向图最短路径问题而提出的。凡是使用隐含马尔可夫模型描述的问题都要用它来解码,如语音识别、机器翻译、拼音转汉字(中文输入法)、分词。

例如输入法,输入的可见序列为 y1,y2,...,yN y 1 , y 2 , . . . , y N ,而产生它们的隐含序列是 x1,x2,...,xN x 1 , x 2 , . . . , x N

这里写图片描述

x1,x2,...,xN=argmax
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值