NLP基础系列
文本标注十要点
实验 vs 应用
自然语言处理(NLP)是机器学习领域非常有挑战的一个分支。
虽然,到目前为止NLP相关的应用仍然不多(或者不成熟)。但是,当我们学习自然语言处理课程或者做实验的时候却常常能得到不错的结果。
那么“实验”和应用之间的差距在哪里呢?
回想一下,当我们学习NLP的时候一定会学到各种算法,然后应用这些算法在标准语料上解决一些问题(如分类,标注等),使用适当的算法在标准数据集经过简单调优就能得到不错的效果。
当我们为自己的模型开心时却很少关注所用的标准数据集。
标注的重要性
事实上,一个标注良好的数据集对模型的准确度非常重要,而在实际应用中,我们时常会发现语料往往存在这样或者那样的问题。