分享张开旭微博对于分词的理解

最新推荐文章于 2023-05-16 15:09:03 发布

BYR_jiandong

最新推荐文章于 2023-05-16 15:09:03 发布

阅读量1.1k

点赞数 1

分类专栏：自然语言处理文章标签： NLP 分词

本文链接：https://blog.csdn.net/lujiandong1/article/details/53814508

版权

自然语言处理专栏收录该内容

10 篇文章 1 订阅

订阅专栏

http://weibo.com/zhangkaixu?refer_flag=1001030102_&noscale_head=1&is_hot=1#_0

【分词不是一个独立的任务】。分词的确在很多地方被使用，但不像机器翻译、语音识别、聊天那样形成一个独立的产品。用户并不对其感知，他在所有使用场景中，都如同一个hidden variable，对最后效果的影响即使不是次要的，但一定也是间接的。这样一个特点就导致很多尴尬的问题。分词是进行一切其他NLP任务的基础工作，会对结果产生间接的影响。

不论从实践上还是理论上，【分词不存在完美的标准】。首先，如上所说，不同的任务所需要的分词结果可能是不一样的；退一步，即使想只关心语言学意义上的标准，从语言学家们对词的定义的争论不朽，我觉得这样一个标准也是不存在的。

那么，【所谓有监督分词，就像是一个半伪的命题】。因为训练样本是人按照某种不完美的规范标注的，而分词的使用场景却又有另一套评价方法（比如搜索引擎中的NDCG，机器翻译中的BLUE），这两者本身就不能匹配。（是的，也许大家也听出来了，词性标注、句法分析也躺枪了）

所以，【分词标注语料的作用有限】。原因之一上面已经提到，他对于分词所在的大任务效果的提高是间接的，比如在一个实际系统中，不同分词错误的影响是非常不一样的。另一个原因是分词语料获得的成本非常昂贵，老实说我自己都无法熟练地按照某一个标准前后一致地去标注生语料，虽然我尝试过。这就使得在大数据量大计算能力的今天，分词语料的规模相当有限，很难覆盖到Zipf尾部。

因此，【纯有监督模型的改进，意义也没有那么大】。我试过很多模型，有好坏的区别，后来大家也试了很多神经网络的方法，但在有限的标注语料上，改进真的算显著吗。我的经验告诉我，模型的升级带来计算量剧增的同时（很多时候其实就只能写paper玩了），其对效果的改进可能远不如加一个词表来得明显。是呀，那我们去把别的领域的那些很酷炫的有监督模型来装分词这个新酒，真那么有意义吗。

【大量无标注语料，是真正的金矿】。分词的有标注语料很少，但分词的无标注语料可以说是最多的。从里面学习词表，是一种简单粗暴的可行方法。从里面统计字的PMI也是利用无标注语料的方法。从里面学习embedding，是很多神经网络分词模型效果提升的根本。甚至用其中的标点符号，都能总结出一些词的边界规律。更不用说self-training、co-training等等，都是试图从无标注语料中提炼出知识来。但我并不觉得以上提到的任何方法完美解决了在无标注语料中挖矿的问题。

最后，【不妨将分词的优化目标，设定为优化所在大任务的整体效果】。一个句子x的分词结果是s，在其所在的大任务中，会有一个收益r(s)，根据不同的结果可能收益不同。那么任何的分词判别模型，给定x，可以给出s的分布，与其让所谓的标注得到正确结果s*的似然p(s*|x)最大化，不如将优化目标定为在s分布下r(s)的期望最大化。其实在神经网络的端到端机器翻译中有现成的例子，与其优化平行语料的最大似然，不如最大化BLUE值的期望。（当然BLUE是否是一个好的机器翻译的reward，就不在本文讨论范围内了）

总结：

1、分词对于具体任务的影响是间接的。

2、为了将分词的优化目标设定为所在大任务的目标。因为，我们本身不重新编写分词工具。所以，对于目前已有的分词工具，我们可以都尝试一遍，然后评估整个大任务的结果，选择让整个大任务最好的分词工具。并且，如果我们有自己的评估准则，能够判断不同分词工具分词的效果，其实对于一句话，我们可以尝试使用多个分词工具去分词，然后选择一个满足我们评价标准的分词结果，当然前提得知道如何评估分词的结果，根据自己的需求。