主动学习方法在临床命名实体识别应用的研究

最新推荐文章于 2022-09-17 18:29:47 发布

Jack千斤顶

最新推荐文章于 2022-09-17 18:29:47 发布

阅读量587

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jinpeijie217/article/details/80724279

版权

主动学习实验框架：

1. 初始化模型产生，一般是有两种初始化抽样策略：（a）随机抽样

（b）最长句子抽样。

2. 查询：

未标注句子然后基于查询算法被排序。主要是uncertainty sampling 和diversity based algorithm。

排在前列的句子会被选择用于标注。每次循环的batch size（前多少个句子被选中）被设作8，16，32，64，128.。。。

3. 训练：

基于标注后的句子进行机器学习模型训练

4. 迭代：

步骤2，3被重复直到停止条件被满足。

一。uncertainty-based sampling

主要有六种计算句子不确定性的方法：

（1）least confidence：基于最可能的标注（CRF的后验概率）

（2）margin：基于最可能的两个标注，两个概率差最小就代表最不确定

（3）N-best sequence entropy： CRF预测的概率分布的熵

(4) dynamic N-best sequence entropy：取N个最好的标注，他们的概率和超过0.9

(5)word entropy：取一句句子中全部单个字的熵的总和，这种单字熵的计算基于所有可能标注的分布。

(6)entity entropy：取有首字的期待实体的熵的总和

不确定性抽样高度依赖于模型质量，在实际设定中未必足够高效。

二。diversity-based querying algorithms

差异性为基础的查询算法依靠于信息而不是模型，例如句子间的相似度。

主要有四种计算相似度的方法：

（1）词相似度：词向量受TF/IDF加权处理后被用于代表每句句子。然后两向量之间的余弦相似度被计算作为两句句子的差异度

（2）语义相似度：基于概念相似度，step1：抽离每句句子中的医学概念组成向量，step2：计算新向量的相似度

（3）句法相似度：基于依赖关系在句子和语料中的计数和分布，然后用词向量的方法

（4）混合相似度：结合以上三种方法计算，先基于（1），（3）构建新向量，计算相似度后和（2）所得

取平均数。

相似度为0时，可能是句子太短而不包含任何命名实体，所以可将其移除。

验证结果：

大部分的主动学习研究都是使用学习曲线（画模型的F-measure）来验证方法效率的。

问题：

1. 具体的active learning算法，尤其是uncertainty sampling的六种方法是怎么具体实施的？基于后验概率的熵值又该怎么计算？

2. 和uncertainty sampling相比，diversity sampling是否也能应用于中文医学文本?

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
主动学习方法在临床命名实体识别应用的研究

主动学习实验框架：1. 初始化模型产生，一般是有两种初始化抽样策略：（a）随机抽样（b）最长句子抽样。2. 查询：未标注句子然后基于查询算法被排序。主要是uncertainty sampling 和diversity based algorithm。排在前列的句子会被选择用于标注。每次循环的batch size（前多少个句子被选中）被设作8，16，32，64，128.。。。3. 训练：基于标注后的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。