作者:禅与计算机程序设计艺术
1.1 现状及挑战
随着大数据和计算能力的迅速发展,人们越来越关注如何利用海量数据的提升效率、降低成本和提高质量。近年来,深度学习技术越来越火热,在很多领域都扮演着重要的角色。从图像处理到自然语言处理再到推荐系统,深度学习模型逐渐变得越来越强大,已经成为解决各种问题的新引擎。其中,对于实体识别(Named Entity Recognition,NER)和关系抽取(Relation Extraction),深度学习模型已经取得了突破性的进步。
2017年,斯坦福大学团队提出了一种名为"Bag of Tricks for Efficient Text Classification"的工作,即借鉴了词嵌入(Word Embedding)的思想,将文本转化为向量形式,通过学习得到的词向量表征,实现分类任务。相比于传统的词袋模型,这种方式更能够捕获到更多信息,且训练速度更快。近几年来,随着深度学习的崛起,命名实体识别(NER)等领域也产生了新的变化。
1.2 NER简介
命名实体识别(Named Entity Recognition,NER)任务,就是对给定的文本进行命名实体识别,并将其分类。它可以应用在不同的领域,包括信息抽取(Information Extraction)、情感分析、机器翻译、知识图谱构建等。一般来说,NER有两种主要的方法:基于规则的NER和基于深度学习的NER。下面是基于规则的NER方法:
- 正则表达式&#