分享张开旭微博对于分词的理解

http://weibo.com/zhangkaixu?refer_flag=1001030102_&noscale_head=1&is_hot=1#_0

分词不是一个独立的任务】。分词的确在很多地方被使用,但不像机器翻译、语音识别、聊天那样形成一个独立的产品。用户并不对其感知,他在所有使用场景中,都如同一个hidden variable,对最后效果的影响即使不是次要的,但一定也是间接的。这样一个特点就导致很多尴尬的问题。分词是进行一切其他NLP任务的基础工作,会对结果产生间接的影响

不论从实践上还是理论上,【分词不存在完美的标准】。首先,如上所说,不同的任务所需要的分词结果可能是不一样的;退一步,即使想只关心语言学意义上的标准,从语言学家们对词的定义的争论不朽,我觉得这样一个标准也是不存在的。

那么,【所谓有监督分词,就像是一个半伪的命题】。因为训练样本是人按照某种不完美的规范标注的,而分词的使用场景却又有另一套评价方法(比如搜索引擎中的NDCG,机器翻译中的BLUE),这两者本身就不能匹配。(是的,也许大家也听出来了,词性标注、句法分析也躺枪了)

所以,【分词标注语料的作用有限】。原因之一上面已经提到,他对于分词所在的大任务效果的提高是间接的,比如在一个实际系统中,不同分词错误的影响是非常不一样的。另一个原因是分词语料获得的成本非常昂贵,老实说我自己都无法熟练地按照某一个标准前后一致地去标注生语料,虽然我尝试过。这就使得在大数据量大计算能力的今天,分词语料的规模相当有限,很难覆盖到Zipf尾部。

因此,【纯有监督模型的改进,意义也没有那么大】。我试过很多模型,有好坏的区别,后来大家也试了很多神经网络的方法,但在有限的标注语料上,改进真的算显著吗。我的经验告诉我,模型的升级带来计算量剧增的同时(很多时候其实就只能写paper玩了),其对效果的改进可能远不如加一个词表来得明显。是呀,那我们去把别的领域的那些很酷炫的有监督模型来装分词这个新酒,真那么有意义吗。

【大量无标注语料,是真正的金矿】。分词的有标注语料很少,但分词的无标注语料可以说是最多的。从里面学习词表,是一种简单粗暴的可行方法。从里面统计字的PMI也是利用无标注语料的方法。从里面学习embedding,是很多神经网络分词模型效果提升的根本甚至用其中的标点符号,都能总结出一些词的边界规律。更不用说self-training、co-training等等,都是试图从无标注语料中提炼出知识来。但我并不觉得以上提到的任何方法完美解决了在无标注语料中挖矿的问题。

最后,【不妨将分词的优化目标,设定为优化所在大任务的整体效果】。一个句子x的分词结果是s,在其所在的大任务中,会有一个收益r(s),根据不同的结果可能收益不同。那么任何的分词判别模型,给定x,可以给出s的分布,与其让所谓的标注得到正确结果s*的似然p(s*|x)最大化,不如将优化目标定为在s分布下r(s)的期望最大化。其实在神经网络的端到端机器翻译中有现成的例子,与其优化平行语料的最大似然,不如最大化BLUE值的期望。(当然BLUE是否是一个好的机器翻译的reward,就不在本文讨论范围内了)

总结:

1、分词对于具体任务的影响是间接的。

2、为了将分词的优化目标设定为所在大任务的目标。因为,我们本身不重新编写分词工具。所以,对于目前已有的分词工具,我们可以都尝试一遍,然后评估整个大任务的结果,选择让整个大任务最好的分词工具。并且,如果我们有自己的评估准则,能够判断不同分词工具分词的效果,其实对于一句话,我们可以尝试使用多个分词工具去分词,然后选择一个满足我们评价标准的分词结果,当然前提得知道如何评估分词的结果,根据自己的需求。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值