1.为什么要词性标注
词性标注是对句子中的每个词贴上合适的词性标签,所谓词性就是动词、名词、形容词等分类(又是分类…)。词性标注是很多NLP任务的预处理步骤,比如知道句子中每个词的词性后,再进行句法分析就容易多了。当然词性标注并不是一个必须的预处理。
词性标注之所以能成为独立的研究主题还在于 NLP的终极目标–理解语言-目前看来还是遥不可及的,革命既然不能一蹴而就,那就先瞄准简单可实现的目标,基于此完成一些不需要理解语义也能完成的任务:如信息提取。
2.影响词性标注准确率的因素
a 训练数据量。这个基本是废话,因为所有基于机器学习的任务都希望数据越
多越好。有道是”It’s not whohas the best algorithm that wins.It’s who has
the data.”;
b 词性标记集。有些词可以具备多种词性,即词性歧义,词性标记集越大,则
潜在歧义越多,标注任务也越困难(极端:如果只有一种词性,就永远不会
有歧义了,当然这是没有任何实用价值的);
c 训练集和真实数据集的差异。 简单理解就是用于训练的文本 和 真实应用的
文本差异较大,导致训练得到的模型只能拟合训练集。这一点也适用于其他