论文导读《Chinese Word Segmentation as Character Tagging》--Nianwen Xue

 

 

【摘要】

本文展示了一种基于监督学习的中文分词算法。算法在人工标注数据上训练了一个最大熵标注器(maximum entropy tagger),用于对新句子中的每一个汉字进行位置标注(LL,LR,MM,RR)。然后将标注后的新句子转换为分词结果,进行评价。初步实验显示,本算法相对其他基于监督学习的算法也是很有竞争力的,基于237K-word的训练样本,取得了95.01%的precision和94.94%的recall。

 

【Introduction】

观点一:在中文中,分词并不简单,并且作了大量研究的工作;

“This may sound simple enough but in reality identifying words in Chinese is a non-trivial problem that has drawn a large body of research in the Chinese language processing community”

观点二:中文没有英语中的自然分隔符并不是现有的分词ambiguity的主要原因。中文缺少明确的词的边界才是主要原因,更详细地说,几乎每个字在不同的词中都可以出现在不同的位置,有时字还可以单独成词,这才是造成分词多种ambiguity的原因。

“It is easy to demonstrate that the lack of natural delimiters itself is not the heart of the problem.”

“Therefore the issue is neither the lack of natural word delimiters nor the lack of inflectional morphemes in a language, rather it is whether the language has a way of unambiguously signaling the boundaries of a word.”

“The real difficulty in automatic Chinese word segmentation is the lack of such unambiguous word boundary indicators. In fact, most hanzi can occur in different positions within different words.”

“The fact that a hanzi can occur in multiple word-internal positions leads to ambiguities of various kinds”

“Ambiguity also arises because some hanzi should be considered to be just word components in certain contexts and words by themselves in others.”

人类在面对ambiguity的时候可以利用句法的结构和一些常识来判断,但是这对计算机来说并不容易,因此作者的结论是“As a result, an automatic word segmenter would have to bypass such limitations(应该指的是人类有但是机器难有的句法结构和常识知识) to resolve these ambiguities”

观点三:分词的另一个问题是词典中不存在的“未登录词”

 

【Previous Work】

前人在分词上主要有两条思路:第一条是将分词作为语义理解的一部分;第二条将分词作为独立的模块

在第二条思路,即将分词作为独立的模块的思路中,分词模块的算法有3类:

一是完全基于字典的算法(Purely dictionary-based approaches)。

》这类算法解决ambiguity的方法是:在新句子中找到最长匹配maximum matching。这种算法在多数常见的情况下正确地处理ambiguity问题,但也对一些情况错误分词。另外,这种算法无法直接处理“新词”的情况。

》总的来说,这种算法是否成功直接依赖于其词典是否完备

二是完全基于统计的算法(Purely statistical approaches)。

》这种算法的一个代表通过计算两个字符的互信息mutual information来判断这两个字是否构成一个词的一部分。
》这种算法的优点是不需要字典,也不需要训练数据;缺点是分词准确率较低

三是既基于统计,也基于字典的算法(Statistical dictionary-based approaches)

》这种算法综合利用前两种算法使用的信息,例如结合使用了字典和统计信息(如词频率)

另外,近期的中文分词工作也有使用监督学习的,代表算法是“transformation-based error-driven approaches”。逻辑是从训练语料中学习一系列的n-gram形式的规则,用于对新句子分词。

“监督学习”learning routine的过程大致如下:输入已分好词的训练样本(segmented corpus),和对应的未分词的样本(unsegmented counterpart),并预先制定一系列规则模板,每一轮训练从规则模板中找出产生最大增益的规则,如此进行多伦训练,直到产生的最大增益小于某一门限值。

该学习过程的输出是一系列有顺序的规则,之后就用这些规则对新句子进行分词。

本文提出的算法也是一种有监督的学习算法,应用maximum entropy model进行中文分词。

 

【A supervised machine-learning algorithm to Chinese word segmentation】

先阐述了给每个汉字打标签的过程,每个汉字的标签代表其在一个词中的位置;

然后解释了tagging的标签的含义:共4个标签

然后简要描述了在POS tagging和parsing中已有成功应用的maximum entropy model

》4个tag标签的含义:本文称这些tag为“POC” tag

LL:汉字在词的最左边,与右边的字组合成词;

RR:汉字在词的最右边,与左边的字组合成词;

MM:汉字在词的中间,与左边右边的字组合成词;

LR:汉字单独成词

 

一个根据已分词的样本,进行POC tagging的例子:

》本文采用给每个字tagging,而不是直接使用训练样本的n-gram rule是因为:

给每个字tagging的序列在训练时更加方便使用;

反映了本文的观点,ambiguity是因为每个字都可能在不同词的不同位置出现。例如,如果某个句子在分词中出现ambiguity,那么一定存在某个字有不止一个可能的POC tag。因此分词的任务就是给句子中的每个汉字确定正确的POC tag

 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值