[论文阅读笔记38]基于多标准主动学习EMR实体识别方法

最新推荐文章于 2022-03-04 00:00:00 发布

happyprince

最新推荐文章于 2022-03-04 00:00:00 发布

阅读量332

点赞数

分类专栏： NER NLP 文章标签：算法人工智能机器学习

本文链接：https://blog.csdn.net/ld326/article/details/117334983

版权

NLP 同时被 2 个专栏收录

79 篇文章 6 订阅

订阅专栏

NER

39 篇文章 13 订阅

订阅专栏

题目

A method based on multi-standard active learning to recognize entities
in electronic medical record
一种基于多标准主动学习的电子病历实体的识别方法
School of Computer Science and Technology, Donghua University, Shanghai 201620, China

摘要

解决人工标注数据问题；
提出基于多标注主动学习来标注实体识别的方法；三个关键标准：标记数据的数量,句子注释的成本,数据采样的平衡;
样本数据下降到66.7%就可以达到传统学习的水平；

提出的方法思路

==不平衡的数据很容易破坏主动的学习性能，==有人通过SVM去解决，可是时间复杂度太大，后来考虑把聚类引入来，可是K-mean只考虑了特征；
提出三个指标：
指标1：聚类–用于平衡样本数据（即数据稀疏性）；
指标2：Gini impurity(不确定选择策略) - 去减少标记数据的数量；
指标3：基于不确定性与标注成本混合关系- 根据实际情况来决定；
在医学领域，大部分都基于单标准的，这是第一篇提出多标准的论文；

论文主动学习框架-- Multi-Standard Active Learning(MSAL)

首先，训练MSAL的方法，通过迭代选择训练数据来识别实体，逐步提高模型性能，在较小的数据集中获得较强的泛化能力。

然后，对未标注的数据集作聚类；使用模型去预测聚类的文本；

接着，基于不确定性和基于成本的选择策略选择样本，并作标注；

最后，把标注的样本放入到Labeled数据集中，再进行训练；

关键问题是—样本选择策略—这里关注可靠性，标注成本，数据稀疏性；

一方面，不确定度度量是降低注释成本的最佳方法；

另一方面，聚类可以确保医学短文本数据的数据采样平衡；

关键流程

Clustering - 聚类

目的是保证数据样本平衡性。

文本向量：

k-means的Euclidean distance公式：

k-means迭代的结束条件–E收敛：

Uncertainty - 不确定性

采用信息熵来衡量不确定性：

补充一个知识点：

熵定义的实际上是一个随机变量的不确定性，熵最大时，表示随机变量最不确定，也就是随机变量最随机，对其行为做准确预测最困难。

在这里，选择熵最大，也就是表示，样本被模型所标注是最不确定的，是模型是知道这个输出是不知道的。所以，要oracle来标注。

可是这个计算有一个缺点：计算效率问题。所以选择了基尼指数（Gini impurity）:

K表示分类数；p_k表示样本属于类k的概率；p_k_`表示样本属于其它类的概率；当实例以相同的概率分布在不同的类中时，Gini指数最大。当所有的实例都属于同一个类时，Gini指数为0，这意味着杂质是最低的。这个本质与熵反映的情况是很相似的。

Gini的知识点：

基尼指数（Gini不纯度）表示在样本集合中一个随机选中的样本被分错的概率。
Gini指数越小表示集合中被选中的样本被参错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。当集合中所有样本为一个类时，基尼指数为0.

其实这个公式更好看一些：

Labeled cost - 标注成本

Annotation Rate (AR)

这里提出，标注一个句子的成本与句子长度是相关的：

Cr选择句子的阅读时间；

Cw专家修改词的平均时间；

Pi_yi:第i个词标注为y_i的概率；

Combination strategy - 整合

MSAL算法流程

实验

评估采用了精准率：

数据集：

本文所使用的实验数据是来自中国上海一家前三名医院的4000例患有乳腺癌的电子病历，具体数据情况：

train : test = 3200：800

训练组的初始规模是35000个短句（约300份医疗记录），它迭代了每轮增加17500个短句（约150份医疗记录）。

实验参数：

结果1，不同粒度的采样情况

结果2：不确定性策略研究

算法复杂性

结果3：消融分析

结果4：综合评价

与传统的随机选择标记数据的监督学习方法相比，标记数据的学习量减少了约66.67%。

模型	说明
KSVM active learning algorithm	header 2
improved weighted SVM model	row 1 col 2
the active learning algorithm based on SVM hyperplane position correction

总结

完了一个电子病历抽取的一个实践，从纯的计算机技术的角度来看，用到的算法还是基本算法。整体来看，是简单可行，对于中文病历在对比上有参考价值。遗憾是没有读出眼前一亮的感觉，没有找到可以复现的代码。

参考

【1】Pan Q , Huang C , Chen D . A method based on multi-standard active learning to recognize entities in electronic medical record[J]. Mathematical Biosciences and Engineering, 2021, 18(2):1000-1021.
http://awstest-alb.aimspress.com/article/doi/10.3934/mbe.2021054

happyprince,https://blog.csdn.net/ld326/article/details/117334983

happyprince

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
[论文阅读笔记38]基于多标准主动学习EMR实体识别方法

题目A method based on multi-standard active learning to recognize entitiesin electronic medical record一种基于多标准主动学习的电子病历实体的识别方法School of Computer Science and Technology, Donghua University, Shanghai 201620, China摘要解决人工标注数据问题；提出基于多标注主动学习来标注实体识别的方法；三个关键标准
复制链接

扫一扫