Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）

最新推荐文章于 2024-09-27 22:55:17 发布

爱睡觉的Raki

最新推荐文章于 2024-09-27 22:55:17 发布

阅读量964

点赞数

分类专栏： NLP 读paper 文章标签：深度学习机器学习自然语言处理神经网络人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Raki_J/article/details/122829523

版权

读paper 同时被 2 个专栏收录

83 篇文章 5 订阅

订阅专栏

82 篇文章 10 订阅

订阅专栏

Abstract & Introduction & Related Work

研究任务
无标注数据NER学习
已有方法和相关工作
1. Unsupervised domain adaptation
2. Aggregation of annotations
3. Weak supervision
面临挑战
1. 他们的方法依赖于一个临时的机制，用于生成候选span来进行分类
创新思路
1. 提出一种弱监督学习方法来解决无标注数据的问题
2. 使用一个隐马尔可夫模型（HMM），将带有噪声的标记功能统一为一个单一的（概率）标注
实验结论

Approach

每一个标注函数以一个文档作为输入，输出一系列与NER标签相关的spans

然后，这些输出通过一个具有多个emission（每个标签功能一个）的隐马尔可夫模型（HMM）进行汇总，其参数是以无监督的方式估计的。最后，汇总的标签被用来学习一个序列标签模型。这个过程是在目标领域的文件上进行的，例如一个金融新闻的语料库
在这里插入图片描述

Labelling functions

Out-of-domain NER models

第一个标注函数的集合是一系列在标注数据数据上训练好的NER模型，本文使用了在以下几个数据集上训练好的模型
在这里插入图片描述

Gazetteers

为了方便索引，把知识库建立成一个trie树

Heuristic functions

我们整合了各种手工制作的函数，依靠正则表达式来检测各种实体的出现

一个专门识别日期、时间、钱数、百分数和心数/序数值的概率分析器（Braun等人，2017）也被纳入

Document-level relations

一个span可能属于多种不同的命名实体，但是不太可能同时属于多种命名实体，因此我们提出用span在文档中出现过的次数来为它的每个命名实体加权
在这里插入图片描述

Aggregation model

然后，这些标签函数的输出通过一个聚合模型被聚合成一个单一的标注层。由于我们无法获得目标领域的标注数据，这个模型是以完全无监督的方式估计的

Model

对于每个token i和标签 j，我们给一个prior，假设它服从狄利克雷分布
在这里插入图片描述
w在这里表示过度矩阵的参数

多概率emission，给出一个包含所有标签j的概率分布

Parameter estimation

为了保证更快的收敛，在似然函数上引入一个限制：对于每个token i ，对应的潜在标签 s 必须在至少一个标注函数上的得分不为0

Prior distributions

看不懂

Decoding

前向后向算法

Sequence labelling model

在这里插入图片描述

Evaluation

在这里插入图片描述

Conclusion

提了7个点的f1分数，但是好像没有说是跟谁比？

后续工作会考虑聚合模型中的标注函数之间的关系，此外一些标注函数可能含有较多的噪声，可以选择一个最优的子集来进一步提高模型性能

Remark

用多个标注函数进行聚合得到标注进行无标签的弱监督学习，我认为它能work的原因是引入了大量的inductive bias，并且作者应该有不错的算法功底（因为他用到了trie树），后续使用狄利克雷分布那边我没有看懂，之后补上这部分知识回来重读

爱睡觉的Raki

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。