一,题目
Deep Active Learning for Named Entity Recognition【NER任务的深度主动学习】
来源:ICLR 2018
原文:DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION
二,作者
Yanyao Shen,Hyokun Yun,Zachary C. Lipton,Yakov Kronrod,Animashree Anandkumar
University of Texas at Austin[得克萨斯大学奥斯汀分校,世界排名34];amazon web service
三,摘要[一句话]
主要探讨了深度学习与主动学习的NER研究,采用比较少的数据可以达到大量数据的效果。
四,主要贡献[认为最有价值的内容]
实验过程,开始时,所有算法都是从训练的1%原始数据开始,模型的参数为随机初始化;
效果:主动学习只使用24.9%的英文语料与30.1%的中文语料就可以达到了最好深层模型的99%的效果。另外12.0%与16.9%可达到了浅层模型的效果。
注:
MNLP:Maximum Normalized Log-Probability
LC: Least Confifidence
BALD:Bayesian Active Learning by Disagreement
RAND:随机
五,模型
5.1 标注策略
[BOS]:表示句子开始;
[EOS]:表于句子结束;
[PAD]:句子长度;
长度相近的句子batch打包放在一起作为bucket;
对于字符层采用的方式与这个相似。
5.2 Character-Level Encoder
采用两层CNNs框架去抽取字符级特征W_char。层间应用ReLU与dropout
5.3 Word-Level Encoder
其中,词级编码器的输入为字符特征与词嵌套级联起来构建。
输出为隐含层与输入层进行拼接。
Tag Decoder
使用LSTM作为解码器,在第一步,[GO]符号作为y1输入到LSTM中;对于第i步,输入包括三个内容,一个是i-1步的y,一个是第i步的陷含变量,一个是词的学习表达。使用softmax损失函数,对第i个y解码,并作下一步的输入。
六,主动学习策略
主动学习过程包括几轮进行:
- 在每轮的开始,主动学习算法选择出一些句子出来,并对这些句子作一预标注与评估;
- 我们收到标注之后,通过增大数据集来更新模型参数与处理下轮;
- 假设标记和每个句与长度成正比,以及句子中的每个字都需要标记,该算法不能要求人工去部分标注。
LC: Least Confifidence
LC缺点:选择比较长的句子。
MNLP:Maximum Normalized Log-Probability
对LC的一个改进。
式(2)中包括了所有词的总和。
BALD:Bayesian Active Learning by Disagreement
P是来源后验的采样,然后能过f-i来对采样样本的排序过滤。
七,数据集
数据集名:OntoNotes-5.0 English and Chinese
概况
英文训练样本: 1,088,503 words
中文训练样本: 756,063 words.
全量文本实验结果F1分数
英文:86.86
中文:75.63
八,实验结果
8.1 算法对比
主动学习只使用24.9%的英文语料与30.1%的中文语料就可以达到了最好深层模型的99%的效果。另外12.0%与16.9%可达到了浅层模型的效果。
8.2 主动学习类别选择的探索
目的是想了解主动是怎样去选择样本。
OntoNotes包含6类:broadcast conversation (bc),braod cast news (bn),magazine genre (mz), newswire(nw),telephone conversation (tc), weblogs (wb).
创建三个训练数据集:
half-data:原始训练数据的随机50%;
nw:newswire语料的数据,原数据占51.5%;
no-nw-data:除了newswire之外的数据;
结论:
- importance of good genre coverage in training data;
- detect underexplored genres;
整篇写得比较简洁与思路比较清晰的,这个思路很实用,实验思路也比较干脆利落,可惜没找它的相关代码,引用的那篇深度学习文章[Yun.2017]没有找到。
九,参考
【1】DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION,https://www.aclweb.org/anthology/W17-2630.pdf
【2】《DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION》阅读笔记, https://zhuanlan.zhihu.com/p/36534616
happyprince,https://blog.csdn.net/ld326/article/details/111995784