机器学习识别EHR中的实体

题目

Clinical Named Entity Recognition From Chinese Electronic Health Records via Machine Learning Methods

背景

EHR中包含了许多个人健康信息,比如实验室检测值,诊断,用药记录等等。虽然EHR规模庞大,但是里面包含了很多非结构化数据,非常不利于计算机分析,clinical named entity recognition (CNER)临床命名实体识别被广泛用于从中英文电子病历中自动提取结构化信息,它用于识别身体部位和诊断等临床实体的边界,并将其划分为预定义的类别。

命名实体识别课题中常用到的机器学习方法有最大熵、CRF、SVM、SSVM以及深度学习的方法。传统的机器学习方法要想取得比较好的效果要非常依赖于前期特征的选取。(这里介绍了很多已经存在的利用CNN或者LSTM结合CRF进行实体识别的文献)。

ML用于中文命名实体识别的困难:(1)公开的中文EHR数据集较少;(2)中文医学词典和本体库较少;(3)汉语的复杂属性,如没有词的边界、复杂的构成形式、各种时态或词性中保持不变的构词形式等.

目标

LSTM-CRF和CRF两种模型提取中文EHR数据的五种临床实体。双向LSTM-CRF只利用了字符和分割信息,而不需要在特征工程和模型构建上花较多功夫。

方法

数据集

共有两个数据集,一个是有注释的语料库,用来训练和测试,另一个是无标注的语料库,用来训练字符的嵌入。所有的数据是住院病人的病程记录和检查结果,包括五种类型的临床实体:症状,检查,诊断,治疗和身体部位。
举例说明说句结构以及被标记后的结果(金标准)

Alt
标注后的实体识别结果
训练集和测试集的大小如下所示。
在这里插入图片描述

LSTM-CRF的结构

在这里插入图片描述
给定一个句子 S = ( c 1 , . . . , c n ) S=(c_1,...,c_n) S=(c1,...,cn),每一个字符 c t ( 1 ≤ t ≤ n ) c_t(1\le t\le n) ct(1tn)用一个向量 x t x_t xt表示,该向量由字符嵌入特征和分割信息串联构成,在输入层input layer时被生成。字符嵌入特征向量由word2vec在包含2605名患者的无标签数据集中训练生成,而分割信息由Jieba segmentation
system产生。
前向和后向的LSTM layer的输入即为 X = ( x 1 , . . . , x n ) X=(x_1,...,x_n) X=(x1,...,xn),分别输出 ( h l = h l 1 , . . . , h l n ) (h_l=h_{l1},...,h_{ln}) (hl=hl1,...,hln) ( h r = h r 1 , . . . , h r n ) (h_r=h_{r1},...,h_{rn}) (hr=hr1,...,hrn) h = ( h 1 , . . . , h n ) h=(h_1,...,h_n) h=(h1,...,hn)(其中 h t h_t ht代表 h l t h_{lt} hlt h r t h_{rt} hrt的串联)作为CRF层的输入,最终输出带有标签的序列 L = ( l 1 , . . . l n ) L=(l_1,...l_n) L=(l1,...ln)

CRF模型

为了训练CRF模型,选择了4种类型的特征,BOC, POS标签,字符类型(CT),以及字符在句子中的位置(POCIS)。文章中提到BOC是指bag-of-characters,估计和Bag-of-words是一个意思,只不过一个是中文,一个是英文。Bag-of-words是词袋模型,将所有句子中的词选取出来构成一个字典,然后用字典的索引给每个句子的每个词做标注。POS标签算法用来给语料库中的每个单词指派一个词类或者词汇类别标记。在EHR中人为规定五种字符类型(CT),包括W:常见的字符;D:数字;L:字母;S:结束标点符号;P:对称的标点符号。

实验

CRF模型

在CRF模型中,字符特征提取的窗口宽度设置为5。在实验过程中,尝试了不同特征的结合,包括(1) BOC; (2) BOC+POS tags; (3)BOC+POS tags+CT; 和 (4) BOC+POS tags+CT+POCIS,采用10倍交叉验证。

LSTM-CRF模型

学习率为0.0004,dropout设置为0.5,词嵌入模型的向量维度为100,优化器选择Adam。

评估准则

准确率、召回率和F1 score
当且仅当模型输出的实体内容,实体起始和结束位置以及实体类别和人工标记的结果一致时,认为模型结果正确。

结果

机器学习的结果远远超过基于词典的标记结果。CRF模型随着特征个数的增加,F1 score从0.8547增加到0.8949,而LSTM-CRF的F1的最好结果是0.9043,虽然没有比CRF的最好结果高多少,但结合了深度学习的算法节省了很多挑选特征的时间。
在这里插入图片描述
下图是更为细节的结果。
在这里插入图片描述

讨论

1、训练集规模还是有些少,增加数据量后类似诊断和治疗的识别准确率会更高。
2、由于训练集数据量较小,有一些诊断或者症状的实体词汇并没有很频繁地出现在训练集里,因此会降低ML方法的准确性,或许加入一些非监督的方法(考虑临床文本的基础上的词汇资源,语料统计,句法知识)效果会更好。
3、金标准和机器学习识别的结果粒度不同,如the patientwas diagnosed with cerebral edema last year中金标准为edema,机器学习的结果为cerebral edema。
4、考虑到不同类型的实体在EHR的不同领域有不同的分布,例如,治疗类型的实体往往集中在诊断和治疗领域,很少出现在一般项目领域,因此分别构建ML-based模型在每个类型所属领域的数据而不是所有电子健康档案数据可能是一个有价值的研究。

个人看法: LSTM-CRF模型中只使用了词嵌入特征和分割信息,模型效果和CRF使用4种类型的特征(BOC, POS标签,字符类型(CT),以及字符在句子中的位置(POCIS))效果几乎一样,那LSTM-CRF模型中是否可以考虑也放入这四种特征,是否会使模型效果提升?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值