主动学习方法在临床命名实体识别应用的研究

主动学习实验框架:

1. 初始化模型产生,一般是有两种初始化抽样策略:(a)随机抽样

(b)最长句子抽样。

2. 查询:

未标注句子然后基于查询算法被排序。主要是uncertainty sampling 和diversity based algorithm。

排在前列的句子会被选择用于标注。每次循环的batch size(前多少个句子被选中)被设作8,16,32,64,128.。。。

3. 训练:

基于标注后的句子进行机器学习模型训练

4. 迭代:

步骤2,3被重复直到停止条件被满足。


一。uncertainty-based sampling

主要有六种计算句子不确定性的方法:

(1)least confidence:基于最可能的标注(CRF的后验概率)

(2)margin:基于最可能的两个标注,两个概率差最小就代表最不确定

(3)N-best sequence entropy: CRF预测的概率分布的熵

  (4) dynamic N-best sequence entropy:取N个最好的标注,他们的概率和超过0.9

  (5)word entropy:取一句句子中全部单个字的熵的总和,这种单字熵的计算基于所有可能标注的分布。

  (6)entity entropy:取有首字的期待实体的熵的总和

不确定性抽样高度依赖于模型质量,在实际设定中未必足够高效。

二。diversity-based querying algorithms

差异性为基础的查询算法依靠于信息而不是模型,例如句子间的相似度。

主要有四种计算相似度的方法:

(1)词相似度:词向量受TF/IDF加权处理后被用于代表每句句子。然后两向量之间的余弦相似度被计算作为两句句子的差异度

(2)语义相似度:基于概念相似度,step1:抽离每句句子中的医学概念组成向量,step2:计算新向量的相似度

(3)句法相似度:基于依赖关系在句子和语料中的计数和分布,然后用词向量的方法

(4)混合相似度:结合以上三种方法计算,先基于(1),(3)构建新向量,计算相似度后和(2)所得

取平均数。

相似度为0时,可能是句子太短而不包含任何命名实体,所以可将其移除。

验证结果:


大部分的主动学习研究都是使用学习曲线(画模型的F-measure)来验证方法效率的。

问题:

1. 具体的active learning算法,尤其是uncertainty sampling的六种方法是怎么具体实施的?基于后验概率的熵值又该怎么计算?

2.  和uncertainty sampling相比,diversity sampling是否也能应用于中文医学文本?



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值