[论文阅读笔记38]基于多标准主动学习EMR实体识别方法

39 篇文章 13 订阅

题目

A method based on multi-standard active learning to recognize entities
in electronic medical record
一种基于多标准主动学习的电子病历实体的识别方法
School of Computer Science and Technology, Donghua University, Shanghai 201620, China

摘要

解决人工标注数据问题;
提出基于多标注主动学习来标注实体识别的方法;三个关键标准:标记数据的数量,句子注释的成本,数据采样的平衡;
样本数据下降到66.7%就可以达到传统学习的水平;

提出的方法思路

==不平衡的数据很容易破坏主动的学习性能,==有人通过SVM去解决,可是时间复杂度太大,后来考虑把聚类引入来,可是K-mean只考虑了特征;
提出三个指标:
指标1:聚类–用于平衡样本数据(即数据稀疏性);
指标2:Gini impurity(不确定选择策略) - 去减少标记数据的数量;
指标3:基于不确定性与标注成本混合关系- 根据实际情况来决定;
在医学领域,大部分都基于单标准的,这是第一篇提出多标准的论文;

论文主动学习框架-- Multi-Standard Active Learning(MSAL)

image-20210527134306710

首先,训练MSAL的方法,通过迭代选择训练数据来识别实体,逐步提高模型性能,在较小的数据集中获得较强的泛化能力。

然后,对未标注的数据集作聚类;使用模型去预测聚类的文本;

接着,基于不确定性和基于成本的选择策略选择样本,并作标注;

最后,把标注的样本放入到Labeled数据集中,再进行训练;

关键问题是—样本选择策略—这里关注可靠性,标注成本,数据稀疏性;

一方面,不确定度度量是降低注释成本的最佳方法;

另一方面,聚类可以确保医学短文本数据的数据采样平衡;

关键流程

image-20210527135535192

Clustering - 聚类

目的是保证数据样本平衡性。

文本向量:

image-20210527140502654

k-means的Euclidean distance公式:

image-20210527140631484

k-means迭代的结束条件–E收敛:

image-20210527140730715

Uncertainty - 不确定性

采用信息熵来衡量不确定性:

image-20210527141103151

补充一个知识点:

熵定义的实际上是一个随机变量的不确定性,熵最大时,表示随机变量最不确定,也就是随机变量最随机,对其行为做准确预测最困难。

在这里,选择熵最大,也就是表示,样本被模型所标注是最不确定的,是模型是知道这个输出是不知道的。所以,要oracle来标注。

可是这个计算有一个缺点:计算效率问题。所以选择了基尼指数(Gini impurity):

image-20210527142251387

K表示分类数;p_k表示样本属于类k的概率;p_k_`表示样本属于其它类的概率;当实例以相同的概率分布在不同的类中时,Gini指数最大。当所有的实例都属于同一个类时,Gini指数为0,这意味着杂质是最低的。这个本质与熵反映的情况是很相似的。

Gini的知识点:

基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。
Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为一个类时,基尼指数为0.

其实这个公式更好看一些:image-20210527143017891

Labeled cost - 标注成本

Annotation Rate (AR)

这里提出,标注一个句子的成本与句子长度是相关的:

image-20210527143721066

Cr选择句子的阅读时间;

Cw专家修改词的平均时间;

Pi_yi:第i个词标注为y_i的概率;

Combination strategy - 整合

image-20210527144236256

MSAL算法流程

image-20210527144343256

实验

评估采用了精准率:

image-20210527144622413

数据集:

本文所使用的实验数据是来自中国上海一家前三名医院的4000例患有乳腺癌的电子病历,具体数据情况:

image-20210527144939599

image-20210527145258509

train : test = 3200:800

训练组的初始规模是35000个短句(约300份医疗记录),它迭代了每轮增加17500个短句(约150份医疗记录)。

实验参数:image-20210527145357278

结果1,不同粒度的采样情况

image-20210527145831249

结果2:不确定性策略研究

image-20210527145953777

算法复杂性

image-20210527150110673

结果3:消融分析

image-20210527150300134

结果4: 综合评价

image-20210527150843522

与传统的随机选择标记数据的监督学习方法相比,标记数据的学习量减少了约66.67%。

相关研究

The core technology of active learning is strategy selection. (主动学习的核心技术是策略选择。),最近的研究主要在:

Data sparsity

EMRs数据不平衡。

  1. SVM相关模型—缺点SVM的时间复杂高
模型说明
KSVM active learning algorithmheader 2
improved weighted SVM modelrow 1 col 2
the active learning algorithm based on SVM hyperplane position correction
  1. clustering方法提出;
  2. 一种基于聚类的短文本分类方法(K-means,SVD)
    缺点,只考虑k-means只是考虑了样本本身的属性特征,忽略了先验信息;

Entity recognition

Bayesian Classification Model [31],
Support Vector Machine (SVM) [32],
Hidden Markov Model (HMM) [33],
Maximum Entropy Markov Models (MEMM) [34],
Conditional Random Fields(CRF) [35]

Active learning

主动学习的核心目标是建立选择对模型最有用的样本数据的标准.
早期
member-based query method [21]
stream-based sampling method [44]
基于池的采样
uncertainty-based sampling[45–47],
version space-reduced sampling [48],
error-reduced sampling [49]
DKI,
考虑句子长度,考虑词,考虑概念都有研究;-
image-20210527113629214

总结

完了一个电子病历抽取的一个实践,从纯的计算机技术的角度来看,用到的算法还是基本算法。整体来看,是简单可行,对于中文病历在对比上有参考价值。遗憾是没有读出眼前一亮的感觉,没有找到可以复现的代码。

参考

【1】Pan Q , Huang C , Chen D . A method based on multi-standard active learning to recognize entities in electronic medical record[J]. Mathematical Biosciences and Engineering, 2021, 18(2):1000-1021.
http://awstest-alb.aimspress.com/article/doi/10.3934/mbe.2021054

happyprince,https://blog.csdn.net/ld326/article/details/117334983

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值