《基于BERT的中文命名实体识别方法》王子牛 2019-《计算机科学》
利用大规模未标注语料对bert行训练,获取文本抽象特征;
利用Bi-LSTM神经网络获取序列化文本的上下文抽象特征;
通过条件随机场CRF进行序列解码标注,提取出相应的实体。
一、相关工作
二、具体步骤
1.Bi-LSTM
采用Graves等提出的改进了LSTM模型中记忆单元和门限机制的版本。
2.CRF结构
替代softmas实现分类。条件随机场CRF能考虑标签序列的全局信息,实现更好的预测。
三、相关实验
1.数据集
1998年人民日报语料。已经分好词,标注了人名、地名、机构名等信息。
使用三元标记集{B,I,O}。B表示实体的第一个词,I表示机构名的其余词,O 表示不属于机构名的词。人名记为 PER,人名的开始记为B-PER;地名记为LOC,地名的开始记为 B-LOC;机构名记为ORG,机构名的开始记为B-ORG。
六月份数据为测试集,1-5月份为训练集。
2.参数设置
Tensorflow搭建。
输入维度seq-length=128
训练集的batchsize=64
测试集的batchsize=8
训练learningrate=2×10e-5
防止训练中出现梯度爆炸,使用梯度夹子,设置参数=5
使用droupout防止过拟合,设为0.5
3.实验结果