[论文阅读笔记05]Deep Active Learning for Named Entity Recognition

最新推荐文章于 2024-01-25 01:54:24 发布

happyprince

最新推荐文章于 2024-01-25 01:54:24 发布

阅读量964

点赞数 1

分类专栏： NER 文章标签：人工智能

本文链接：https://blog.csdn.net/ld326/article/details/111995784

版权

NER 专栏收录该内容

39 篇文章 14 订阅

订阅专栏

一，题目

Deep Active Learning for Named Entity Recognition【NER任务的深度主动学习】
来源：ICLR 2018
原文：DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION

二，作者

Yanyao Shen，Hyokun Yun，Zachary C. Lipton，Yakov Kronrod，Animashree Anandkumar
University of Texas at Austin[得克萨斯大学奥斯汀分校，世界排名34]；amazon web service

三，摘要[一句话]

主要探讨了深度学习与主动学习的NER研究，采用比较少的数据可以达到大量数据的效果。

四，主要贡献[认为最有价值的内容]

实验过程，开始时，所有算法都是从训练的1%原始数据开始，模型的参数为随机初始化；
在这里插入图片描述

效果：主动学习只使用24.9%的英文语料与30.1%的中文语料就可以达到了最好深层模型的99%的效果。另外12.0%与16.9%可达到了浅层模型的效果。
注：
MNLP:Maximum Normalized Log-Probability
LC: Least Confifidence
BALD:Bayesian Active Learning by Disagreement
RAND：随机

五，模型

5.1 标注策略

在这里插入图片描述

[BOS]：表示句子开始；
[EOS]：表于句子结束；
[PAD]：句子长度；
长度相近的句子batch打包放在一起作为bucket；
对于字符层采用的方式与这个相似。

5.2 Character-Level Encoder

在这里插入图片描述

采用两层CNNs框架去抽取字符级特征W_char。层间应用ReLU与dropout

5.3 Word-Level Encoder

在这里插入图片描述

其中，词级编码器的输入为字符特征与词嵌套级联起来构建。
在这里插入图片描述

输出为隐含层与输入层进行拼接。
在这里插入图片描述

Tag Decoder
在这里插入图片描述

使用LSTM作为解码器，在第一步，[GO]符号作为y1输入到LSTM中；对于第i步，输入包括三个内容，一个是i-1步的y,一个是第i步的陷含变量，一个是词的学习表达。使用softmax损失函数，对第i个y解码，并作下一步的输入。
六，主动学习策略
主动学习过程包括几轮进行：

在每轮的开始，主动学习算法选择出一些句子出来，并对这些句子作一预标注与评估；
我们收到标注之后，通过增大数据集来更新模型参数与处理下轮；
假设标记和每个句与长度成正比，以及句子中的每个字都需要标记，该算法不能要求人工去部分标注。
LC: Least Confifidence

LC缺点：选择比较长的句子。
MNLP:Maximum Normalized Log-Probability
对LC的一个改进。
在这里插入图片描述

式(2)中包括了所有词的总和。
BALD:Bayesian Active Learning by Disagreement
在这里插入图片描述

P是来源后验的采样，然后能过f-i来对采样样本的排序过滤。

七，数据集

数据集名：OntoNotes-5.0 English and Chinese
概况
英文训练样本： 1,088,503 words
中文训练样本： 756,063 words.
全量文本实验结果F1分数
英文：86.86
中文：75.63

八，实验结果

8.1 算法对比
主动学习只使用24.9%的英文语料与30.1%的中文语料就可以达到了最好深层模型的99%的效果。另外12.0%与16.9%可达到了浅层模型的效果。
8.2 主动学习类别选择的探索
目的是想了解主动是怎样去选择样本。
OntoNotes包含6类：broadcast conversation (bc),braod cast news (bn),magazine genre (mz), newswire(nw),telephone conversation (tc), weblogs (wb).
创建三个训练数据集：
half-data：原始训练数据的随机50％；
nw：newswire语料的数据，原数据占51.5%；
no-nw-data：除了newswire之外的数据；
在这里插入图片描述

结论：

importance of good genre coverage in training data；
detect underexplored genres;
整篇写得比较简洁与思路比较清晰的，这个思路很实用，实验思路也比较干脆利落，可惜没找它的相关代码，引用的那篇深度学习文章[Yun.2017]没有找到。

九，参考

【1】DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION，https://www.aclweb.org/anthology/W17-2630.pdf
【2】《DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION》阅读笔记， https://zhuanlan.zhihu.com/p/36534616

happyprince,https://blog.csdn.net/ld326/article/details/111995784

happyprince

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
[论文阅读笔记05]Deep Active Learning for Named Entity Recognition

一，题目Deep Active Learning for Named Entity Recognition【NER任务的深度主动学习】来源：ICLR 2018原文：DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION二，作者Yanyao Shen，Hyokun Yun，Zachary C. Lipton，Yakov Kronrod，Animashree AnandkumarUniversity of Texas at Austin[得克萨斯大学奥斯汀
复制链接

扫一扫

专栏目录