到底如何理解文本？一文读懂命名实体识别（实体消歧和实体统一）_文本实体识别

2401_84976377

于 2024-05-16 03:00:13 发布

阅读量841

点赞数 11

文章标签： c语言 c++ 学习

本文链接：https://blog.csdn.net/2401_84976377/article/details/138933804

版权

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

当我们标记好大量数据后，实际上这就是一个分类问题，输入文本词语，输出对应的种类就可以了，那么我们需要构造一个类别数为实体种类的分类器。

二、命名实体识别方法

1.实体识别方法

命名实体识别从早期基于词典和规则的方法，到传统机器学习的方法，后来采用基于深度学习的方法，一直到当下热门的注意力机制、图神经网络等研究方法，命名实体识别技术路线随着时间在不断发展。技术发展趋势如下图所示：

1.1 基于规则和字典的方法

基于规则和字典的方法是最初代的命名实体识别使用的方法，这些方法多采用由语言学家通过人工方式，依据数据集特征构建的特定规则模板或者特殊词典。规则包括关键词、位置词、方位词、中心词、指示词、统计信息、标点符号等。词典是由特征词构成的词典和外部词典共同组成，外部词典指已有的常识词典。制定好规则和词典后，通常使用匹配的方式对文本进行处理以实现命名实体识别。

基于规则的实体识别方法虽然简单，实际上也比较实用，特别是对于一些垂直领域的应用，或者数据量比较少或者没有标签数据的时候。如果我们有一个足够丰富的词典库，那么仅仅根据词库也能做到不错的准确率。另外，基于规则的识别方法是一套非常有效的基准(baseline)。

1.2 基于传统机器学习的方法

在基于机器学习的方法中，命名实体识别被当作是序列标注问题。与分类问题相比，序列标注问题中当前的预测标签不仅与当前的输入特征相关，还与之前的预测标签相关，即预测标签序列之间是有强相互依赖关系的。采用的传统机器学习方法主要包括:隐马尔可夫模型、最大熵、最大熵马尔可夫模型、支持向量机、条件随机场等。

在这 5 种学习方法中，ME结构紧凑，具有较好的通用性，其主要缺点是训练时间复杂性非常高，甚至导致训练代价难以承受，另外由于需要明确的归一化计算，导致开销比较大。HMM对转移概率和表现概率直接建模，统计共现概率。ME和SVM在正确率上要 HMM高一些，但是HMM在训练和识别时的速度要快一些。MEMM对转移概率和表现概率建立联合概率，统计条件概率，但由于只在局部做归一化容易陷入局部最优。CRF模型统计全局概率，在归一化时考虑数据在全局的分布，而不是仅仅在局部进行归一化，因此解决了MEMM中标记偏置的问题。在传统机器学习中，CRF被看作是命名实体识别的主流模型，优点在于在对一个位置进行标注的过程中CRF可以利用内部及上下文特征信息。

1.3 基于深度学习的方法

随着深度学习的不断发展，命名实体识别的研究重点已转向深层神经网络，该技术几乎不需要特征工程和领域知识。Collobert等学者首次提出基于神经网络的命名实体识别方法，该方法中每个单词具有固定大小的窗口，但未能考虑长距离单词之间的有效信息。为了克服这一限制，Chiu和Nichols提出了一种双向LSTM－CNNs架构，该架构可自动检测单词和字符级别的特征。Ma和Hovy进一步将其扩展到BiLSTM－CNNs－CRF体系结构，其中添加了CRF模块以优化输出标签序列。Liu等提出了一种称为LM－LSTM－CRF的任务感知型神经语言模型，将字符感知型神经语言模型合并到一个多任务框架下，以提取字符级向量化表示。这些端到端模型具备从数据中自动学习的功能，可以很好地识别新实体。

部分学者将辅助信息和深度学习方法混合使用进行命名实体识别。Liu 等在混合半马尔可夫条件随机场的体系结构的基础上加入了Gazetteers 地名词典，利用实体在地名词典的匹配结果作为命名实体识别的特征之一。一些研究尝试在标签级别跨数据集共享信息，Greenberg等提出了一个单一的CRF模型，使用异构标签集进行命名实体识别，此方法对平衡标签分布的领域数据集有实用性。Augenstein 等使用标签向量化表示在任务之间进一步播信息。Beryozkin等建议使用给定的标签层次结构共同学习一个在所有标签集中共享其标签层的神经网络，取得了非常优异的性能。

近年来，在基于神经网络的结构上加入注意力机制、图神经网络、迁移学习、远监督学习等热门研究技术也是目前的主流研究方向。

总体来讲，前两种方法只是作为基准，一般不会作为生产环境下的方法，最常用的方法莫过于基于CRF的识别。