自然语言处理是自然语言处理领域中最具潜力的领域。然而,在某些情况下,可以寻求基于规则的经典自然语言处理的贡献。
何时使用基于规则的方法而不是统计NLP
在研究人员财力雄厚,处理一般问题的情况下,统计NLP通常是解决NLP问题的首选方法。但是,在以下情况下,基于规则的方法可能会有成效:
1-领域特定问题:
我们有很好的预训练的模型,如GPT-3,BERT,ELMo,这些模型在通用语言问题上有着惊人的成就。然而,当我们试图将它们用于特定领域的问题,如金融新闻情感分析或法律文本分类时,这些模型可能无法满足这些任务所需的特殊性。
因此,我们要么使用附加的标记数据对这些模型进行微调,要么依赖于基于规则的模型。
2-缺少标记数据:
尽管我们可能需要对模型进行微调,但未必总是可行的。尤其是对于小团队,没有资金,就无法获得标记数据来微调预训练的模型,更不用说构建自己的深度学习模型了。最后可能无法收集大量有意义的数据来训练深度学习模型。统计NLP模型非常需要数据。
3-有限的训练资金:
即使你有一些可用的标记特定数据,训练专用模型也有其自身的成本。不仅如此,你的团队还需要一批数据科学家,还需要分布式服务器来训练模型。
如果你遇到了这些问题之一,最好的选择可能是基于规则的NLP,并且基于规则的NLP的准确度并没有你想象的那么差。
在这篇文章中,我们将构建一个简单的基于词汇的情感分类器,而不需要太多的调整,我们将获得一个可接受的准确度性能,这可能会进一步提高。
在开始之前,我们先介绍一些基本知识。
词典
Lexicon听起来像是一个很花哨的专业术语,但它的意思是词典,通常在某个特定的领域。换句话说:
词典是一个人、语言或知识分支的词汇。
在基于规则的NLP情感分析研究中,我们需要一个词典作为参考手册来衡量一段文本(例如单词、短语、句子、段落、全文)的情感。
基于词汇的情感分析可以是简单的正标记词减去负标记词来判断文本是否具有积极情绪。它也可能是非常复杂的规则,距离计算,方差,和几个额外的规则。
基于规则的NLP和统计NLP的主要区别之一是,在基于规则的NLP中,研究人员完全可以自由地添加他们认为有用的任何规则。因此,在基于规则的NLP中,我们通常看到的是训练有素的专家在特定领域开发基于理论的规则,并将其应用于特定领域中的特定问题。
VADER是什么?
VADER是最流行的基于规则的情绪分析模型之一。VADER(Valence Aware Dictionary and sEntiment Reasoner),是一个词典和基于规则的情绪分析工具,专门针对社交媒体