作者及其单位:北京邮电大学,张俊遥,2019年6月,硕士论文
摘要
实验数据:来源于网络公开的新闻文本数据;用随机欠采样和过采样的方法解决分类不均衡问题;使用BIO
格式的标签识别5类命名实体,标注11种标签。
学习模型:基于RNN-CRF
框架,提出Bi-GRU-Attention
模型;基于改进的ELMo
可移植模型。
一,绪论
1,研究背景及意义
研究背景主要介绍的是时代背景及
NER
的应用领域。
2,研究现状
1)基于规则和词典的方法;
2)基于统计的方法:语言的
N
元模型,隐马尔科夫模型,最大熵模型,条件随机场,支持向量机,决策树,基于转换的学习方法;3)基于深度学习的方法:基于双向循环神经网络与条件随机场结合的框架;基于标签转移与窗口滑动的方法;注意力机制(
Attention
);4)基于迁移学习的方法。
面临挑战:
1)中文命名实体界限难划分;
2)中文命名实体结构更多样复杂;
3)中文命名实体分类标准不同,划分标注结果不同。
3,研究内容
1)数据集收集与预处理;
2)基于双向循环神经网络与条件随机场模型的研究;
3)基于
ELMo
的可移植模型研究。
二,相关技术
1,基于循环神经网络方法的技术
1)神经单元结构:循环是指一个神经单元的计算是按照时间顺序展开依次进行的过程。具有记忆特征,常用来处理与序列相关的问题。
2)循环神经网络的发展:
LSTM
取代CNN
,主要是解决CNN
单元的反向传播的计算问题。3)深层网络搭建:
Dropout
常被用作防止模型过拟合,减少网络冗余度,增加模型鲁棒性;批量归一化策略是批量梯度下降算法过程的一项操作;clip
是一种有效控制梯度爆炸的算法。4)目标函数,即损失函数,衡量经过模型计算的预测结果和事实上的结果之间的差距。如:平方差,交叉熵,
softmax
。5)注意力机制:论文研究了在
LSTM
中引入注意力机制。6)
Adam
优化算法:适合解决梯度稀疏或噪音较高的优化问题。
2,基于迁移学习方法的技术
1)基本思想:
(1)预训练的两种基本思路:
a)基于共同表示形式的思路:电子文本大多以某种向量形式(词,句,段,文本)表示输入到网络中,如
ELMo
模型。b)基于网络微调的思想:借鉴机器视觉领域的模型思想,在预训练好的模型上加入针对任务的功能层,在对后几层进行结构和参数设置的精调。
2)语言模型:双向语言模型
3)词向量技术:
One-hot
向量,稀疏向量和稠密向量。(1)基于统计的方法
a)基于共现矩阵的方法:在设定的窗口大小内,统计了一个句子中词语前后相邻出现的次数,使用这个次数构成的向量当作词向量,这个向量比较稀疏。
b)奇异值分解的方法:可以看作一种降维过程,把稀疏矩阵压缩为稠密矩阵的过程。
(2)基于语言模型的方法:
a)跳字模型(
skip-gram
):使用一个词来预测上下文词语;b)连续词袋模型(
CBOW
):使用周围词语预测中心词;c)
ELMo
模型:词向量表达过程是动态的,即一词多义下的词向量完全不同。4)混淆矩阵:数据科学,数据分析和机器学习中统计分类的实际结果和预测结果的表格表示。
三,命名实体识别任务与数据集
1,命名实体识别任务
1)定义:命名实体识别属于序列标注类问题,分为三大类(实体类,数量类,时间类),七小类(人名,地名,组织名,日期,时间,货币或者百分比)。
2)任务过程:准确划分出命名实体的边界,并将命名实体进行正确的分类。
3)判别标准:(1)准确划分出命名实体的边界;(2)命名实体的标注分类正确;(3)命名实体内部位置标注有序。
准 确 率 = 标 注 结 果 正 确 的 数 量 标 注 结 果 的 数 量