【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记

本文是关于《基于深度学习的中文命名实体识别研究》的论文笔记,探讨了命名实体识别任务,相关技术如循环神经网络、注意力机制和迁移学习,以及提出的改进模型。实验表明,这些方法能提升模型准确性和数据集的可移植性。
摘要由CSDN通过智能技术生成

作者及其单位:北京邮电大学,张俊遥,2019年6月,硕士论文

摘要

实验数据:来源于网络公开的新闻文本数据;用随机欠采样和过采样的方法解决分类不均衡问题;使用BIO格式的标签识别5类命名实体,标注11种标签。

学习模型:基于RNN-CRF框架,提出Bi-GRU-Attention模型;基于改进的ELMo可移植模型。

一,绪论

1,研究背景及意义

研究背景主要介绍的是时代背景及NER的应用领域。

2,研究现状

1)基于规则和词典的方法;

2)基于统计的方法:语言的N元模型,隐马尔科夫模型,最大熵模型,条件随机场,支持向量机,决策树,基于转换的学习方法;

3)基于深度学习的方法:基于双向循环神经网络与条件随机场结合的框架;基于标签转移与窗口滑动的方法;注意力机制(Attention);

4)基于迁移学习的方法。

面临挑战:

1)中文命名实体界限难划分;

2)中文命名实体结构更多样复杂;

3)中文命名实体分类标准不同,划分标注结果不同。

3,研究内容

1)数据集收集与预处理;

2)基于双向循环神经网络与条件随机场模型的研究;

3)基于ELMo的可移植模型研究。

二,相关技术

1,基于循环神经网络方法的技术

1)神经单元结构:循环是指一个神经单元的计算是按照时间顺序展开依次进行的过程。具有记忆特征,常用来处理与序列相关的问题。

2)循环神经网络的发展:LSTM取代CNN,主要是解决CNN单元的反向传播的计算问题。

3)深层网络搭建:Dropout常被用作防止模型过拟合,减少网络冗余度,增加模型鲁棒性;批量归一化策略是批量梯度下降算法过程的一项操作;clip是一种有效控制梯度爆炸的算法。

4)目标函数,即损失函数,衡量经过模型计算的预测结果和事实上的结果之间的差距。如:平方差,交叉熵,softmax

5)注意力机制:论文研究了在LSTM中引入注意力机制。

6)Adam优化算法:适合解决梯度稀疏或噪音较高的优化问题。

2,基于迁移学习方法的技术

1)基本思想:

(1)预训练的两种基本思路:

a)基于共同表示形式的思路:电子文本大多以某种向量形式(词,句,段,文本)表示输入到网络中,如ELMo模型。

b)基于网络微调的思想:借鉴机器视觉领域的模型思想,在预训练好的模型上加入针对任务的功能层,在对后几层进行结构和参数设置的精调。

2)语言模型:双向语言模型

3)词向量技术:One-hot向量,稀疏向量和稠密向量。

(1)基于统计的方法

a)基于共现矩阵的方法:在设定的窗口大小内,统计了一个句子中词语前后相邻出现的次数,使用这个次数构成的向量当作词向量,这个向量比较稀疏。

b)奇异值分解的方法:可以看作一种降维过程,把稀疏矩阵压缩为稠密矩阵的过程。

(2)基于语言模型的方法:

a)跳字模型(skip-gram):使用一个词来预测上下文词语;

b)连续词袋模型(CBOW):使用周围词语预测中心词;

c)ELMo模型:词向量表达过程是动态的,即一词多义下的词向量完全不同。

4)混淆矩阵:数据科学,数据分析和机器学习中统计分类的实际结果和预测结果的表格表示。

三,命名实体识别任务与数据集

1,命名实体识别任务

1)定义:命名实体识别属于序列标注类问题,分为三大类(实体类,数量类,时间类),七小类(人名,地名,组织名,日期,时间,货币或者百分比)。

2)任务过程:准确划分出命名实体的边界,并将命名实体进行正确的分类。

3)判别标准:(1)准确划分出命名实体的边界;(2)命名实体的标注分类正确;(3)命名实体内部位置标注有序。
准 确 率 = 标 注 结 果 正 确 的 数 量 标 注 结 果 的 数 量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值