1,什么是命名实体识别
命名实体识别(Named Entity Recognition,简称NER)就是从一句话中找出相关的实体,并标识出其位置,实体的定义很广,可以是人名、机构、地点,根据业务需求也可以是性别、产品型号之类的。
例如:
刘媛媛同学被清华大学录取。
这里刘媛媛是一个人,清华大学是一个机构。
NER是NLP中一项基础性关键任务,对于其他的自然语言任务如关系抽取、事件抽取、知识图谱、机器翻译、问答系统都需要NER的支撑。
NER技术目前已经很成熟,在工业上已经完全满足应用需求。
2,通用工具
如果业务需求简单,目前有封装好的工具可以直接使用,
NLTK和Stanford NLP。当然通用工具只能满足简单的需求,对于复杂的任务还是需要自己训练模型。
3,NER模型
早期的NER使用字典和规则,在发展就是使用HMM和CRF概率模型。目前主流的方法是深度学习加CRF(RNN+CRF/CNN+CRF)
在基于深度学习的方法中,NER被当作是序列标注问题,类似于分类问题,对句子中的每个词判断其类别。这里会系列的介绍RNN,RNN+CRF,Bert+RNN+CRF.