【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记

最新推荐文章于 2023-06-05 19:30:30 发布

天堂的鸽子

最新推荐文章于 2023-06-05 19:30:30 发布

阅读量2.5k

点赞数 2

分类专栏：科研笔记文章标签：论文笔记

本文链接：https://blog.csdn.net/tiantangdegezi/article/details/104593660

版权

本文是关于《基于深度学习的中文命名实体识别研究》的论文笔记，探讨了命名实体识别任务，相关技术如循环神经网络、注意力机制和迁移学习，以及提出的改进模型。实验表明，这些方法能提升模型准确性和数据集的可移植性。

摘要由CSDN通过智能技术生成

作者及其单位：北京邮电大学，张俊遥，2019年6月，硕士论文

摘要

实验数据：来源于网络公开的新闻文本数据；用随机欠采样和过采样的方法解决分类不均衡问题；使用BIO格式的标签识别5类命名实体，标注11种标签。

学习模型：基于RNN-CRF框架，提出Bi-GRU-Attention模型；基于改进的ELMo可移植模型。

一，绪论

1，研究背景及意义

研究背景主要介绍的是时代背景及NER的应用领域。

2，研究现状

1）基于规则和词典的方法；

2）基于统计的方法：语言的N元模型，隐马尔科夫模型，最大熵模型，条件随机场，支持向量机，决策树，基于转换的学习方法；

3）基于深度学习的方法：基于双向循环神经网络与条件随机场结合的框架；基于标签转移与窗口滑动的方法；注意力机制(Attention)；

4）基于迁移学习的方法。

面临挑战：

1）中文命名实体界限难划分；

2）中文命名实体结构更多样复杂；

3）中文命名实体分类标准不同，划分标注结果不同。

3，研究内容

1）数据集收集与预处理；

2）基于双向循环神经网络与条件随机场模型的研究；

3）基于ELMo的可移植模型研究。

二，相关技术

1，基于循环神经网络方法的技术

1）神经单元结构：循环是指一个神经单元的计算是按照时间顺序展开依次进行的过程。具有记忆特征，常用来处理与序列相关的问题。

2）循环神经网络的发展：LSTM取代CNN，主要是解决CNN单元的反向传播的计算问题。

3）深层网络搭建：Dropout常被用作防止模型过拟合，减少网络冗余度，增加模型鲁棒性；批量归一化策略是批量梯度下降算法过程的一项操作；clip是一种有效控制梯度爆炸的算法。

4）目标函数，即损失函数，衡量经过模型计算的预测结果和事实上的结果之间的差距。如：平方差，交叉熵，softmax。

5）注意力机制：论文研究了在LSTM中引入注意力机制。

6）Adam优化算法：适合解决梯度稀疏或噪音较高的优化问题。

2，基于迁移学习方法的技术

1）基本思想：

（1）预训练的两种基本思路：

a）基于共同表示形式的思路：电子文本大多以某种向量形式（词，句，段，文本）表示输入到网络中，如ELMo模型。

b）基于网络微调的思想：借鉴机器视觉领域的模型思想，在预训练好的模型上加入针对任务的功能层，在对后几层进行结构和参数设置的精调。

2）语言模型：双向语言模型

3）词向量技术：One-hot向量，稀疏向量和稠密向量。

（1）基于统计的方法

a）基于共现矩阵的方法：在设定的窗口大小内，统计了一个句子中词语前后相邻出现的次数，使用这个次数构成的向量当作词向量，这个向量比较稀疏。

b）奇异值分解的方法：可以看作一种降维过程，把稀疏矩阵压缩为稠密矩阵的过程。

（2）基于语言模型的方法：

a）跳字模型（skip-gram）：使用一个词来预测上下文词语；

b）连续词袋模型（CBOW）：使用周围词语预测中心词；

c）ELMo模型：词向量表达过程是动态的，即一词多义下的词向量完全不同。

4）混淆矩阵：数据科学，数据分析和机器学习中统计分类的实际结果和预测结果的表格表示。

三，命名实体识别任务与数据集

1，命名实体识别任务

1）定义：命名实体识别属于序列标注类问题，分为三大类（实体类，数量类，时间类），七小类（人名，地名，组织名，日期，时间，货币或者百分比）。

2）任务过程：准确划分出命名实体的边界，并将命名实体进行正确的分类。

3）判别标准：（1）准确划分出命名实体的边界；（2）命名实体的标注分类正确；（3）命名实体内部位置标注有序。