医疗术语自动编码论文总结 (Automated Coding)

1996

Larkey, Leah S., and W. Bruce Croft. "Combining classifiers in text categorization." SIGIR. Vol. 96. 1996.

论文链接

被引用次数:532

思想:

看成检索问题,输入是discharge summary长文本,输出是每个code的分数。打分的方法有三个,K-nearest-neighbor, relevance feedback, and Bayesian independence classifers, 其中贝叶斯训练了1068个分类器,每个分类器选取top40 terms作为特征训练。最终将三个得分结合起来。

 

2000

 Franz, Pius, et al. "Automated coding of diagnoses--three methods compared." Proceedings of the AMIA Symposium. American Medical Informatics Association, 2000.

论文链接

被引用次数:39

思想:

Both techniques produced a ranked output ofpossible diagnoses within a vector space frameworkfor retrieval.

构建一个检索框架,输入是query,与ICD list中一一比较,然后rank,返回第一个。

具体方法将query和document转换成vector,使用ngram, stem, prefix, suffix,等特征,另外还引入SNOMED数据作为中间映射结果,让再映射到ICD。

 

2007

1. Pestian, John P., et al. "A shared task involving multi-label classification of clinical free text." Proceedings of the Workshop on BioNLP 2007: Biological, Translational, and Clinical Language Processing. Association for Computational Linguistics, 2007.

论文链接

被引用次数:308

思想:

发布了ICD-9实体链接任务

 

2008 

Farkas, Richárd, and György Szarvas. "Automatic construction of rule-based ICD-9-CM coding systems." BMC bioinformatics. Vol. 9. No. 3. BioMed Central, 2008. 

论文链接

被引用次数:102

思想:使用rule从EMR中提取一些短文本,作为分类器输入。然后用decision tree 或 max entropy训练分类器。最终得到分类器中的规则。所以这篇paper的主要目的是自动挖掘ICD编码的规则。

 

2012

Kang, Ning, et al. "Using rule-based natural language processing to improve disease normalization in biomedical text." Journal of the American Medical Informatics Association20.5 (2012): 876-881.

论文链接

被引用次数:58

思想:

使用AZDC数据集,其中有标好的UMLS编码。基本方法是基于已有的Concept normalization systems(MetaMap and Peregrine)上进行优化,优化的方法是rule-based模型。

 

 

2013

1. Kavuluru, Ramakanth, Sifei Han, and Daniel Harris. "Unsupervised extraction of diagnosis codes from EMRs using knowledge-based and extractive text summarization techniques." Canadian conference on artificial intelligence. Springer, Berlin, Heidelberg, 2013.

论文链接

被引用次数:8

思想:

无监督方法。1)NER (MetaMap) 识别EMR中诊断术语, 使用UMLS Metathesaurus映射到ICD code;2)使用UMLS relationship graph 解决第一步中未映射的术语 3)关键词抽取技术(C-value)对第二步的结果进行排序
这个ensemble approach怎么说呢,像一锅乱炖,开源的工具咔咔怼到一起。。。比较依赖于工具的性能,第一步NER有问题的话结果肯定不行了

2. Perotte, Adler, et al. "Diagnosis code assignment: models and evaluation metrics." Journal of the American Medical Informatics Association 21.2 (2013): 231-237.

论文链接

被引用次数:79

思想:

使用Mimic2的Discharge summaries作为训练数据,对ICD-9自动编码。提出两个方法flat SVM 和 hierarchy-based SVM,分类器的特征是tf-idf得到的关键词

flat SVM:对每个code训练一个SVM,将输出为1的code合并得到输出

hierarchy-based SVM:将ICD-9的层次结构考虑进来,只有当父节点的code为positive,才运行子code的分类器

2014

Leaman, Robert, and Zhiyong Lu. "Automated disease normalization with low rank approximations." Proceedings of BioNLP 2014 (2014): 24-28.

论文链接

被引用次数:7

思想:

pairwise learning to rank,将NCBI Disease Corpus和其中的concept通过TF-IDF向量化,再设计一个score()函数对a pair of text 进行打分。训练打分函数其中的参数。缺点是低效,不能应用于大规模数据,而且对语义关系挖掘的还不够。

 

2015

1. Kavuluru, Ramakanth, Anthony Rios, and Yuan Lu. "An empirical evaluation of supervised learning approaches in assigning diagnosis codes to electronic medical records." Artificial intelligence in medicine 65.2 (2015): 155-166.

论文链接

被引用次数:45

思想:

将医疗实体链接转换成多个二分类的问题,每个code训练一个分类器,然后对输出的code进行rank,再使用label calibration methods预测label的数量,对结果进行选取topk个code作为最终的assigned code

 

2. Koopman, Bevan, et al. "Automatic ICD-10 classification of cancers from free-text death certificates." International journal of medical informatics 84.11 (2015): 956-965.

论文链接

被引用次数:47

思想:

从death certificates提取terms, n-grams and SNOMED CT concepts等特征训练两个SVM分类器,第一个判断是否有癌症,第二个判断术语那种类型癌症

2016

Wang, Sen, et al. "Diagnosis code assignment using sparsity-based disease correlation embedding." IEEE Transactions on Knowledge and Data Engineering 28.12 (2016): 3191-3202.

论文链接

被引用次数:43

思想:

 

 

2017

Shi, Haoran, et al. "Towards automated icd coding using deep learning." arXiv preprint arXiv:1711.04075 (2017).

论文链接

被引用次数:18

思想:

使用MIMIC-III数据集,从中提取出diagnosis descriptions进行ICD编码映射。

主要方法:RNN对document和ICD titles分别编码,然后使用attention选择出diagnosis descriptions进行下一步,在这里需要对document中的每一个diagnosis descriptions和所有的ICD titles进行比对。最终使用sigmoid激活函数二分类。

 

2018

1. Duarte, Francisco, et al. "Deep neural models for ICD-10 coding of death certificates and autopsy reports in free-text." Journal of biomedical informatics 80 (2018): 64-77.

论文链接

被引用次数:8

思想:

使用多种医疗数据做死亡原因ICD编码。创新点是提出了一种神经网络结构预测chapters, blocks, and full-codes三种类型ICD编码。具体是使用RNN编码不同源数据,进行merge,然后分别训练三个模型预测chapters, blocks, and full-codes,其中前两类是多分类问题,最后一层使用softmax;第三种是二分类,最后一层使用的sigmoid。比较新颖的是在最后网络层使用标签之间的共现关系初始化参数。

2. Mullenbach, James, et al. "Explainable prediction of medical codes from clinical text." arXiv preprint arXiv:1802.05695(2018).

论文链接

被引用次数:24

思想:

对discharge summaries自动编码到ICD-9,是一个multilabel text classification任务。主要方法是使用CNN对document进行编码,然后attention出来根据不同的label选择document不同的部分作为最终的输出进行预测。

3. Xie, Pengtao, and Eric Xing. "A neural architecture for automated icd coding." Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018.

论文链接

被引用次数:4

思想:

使用MIMIC-III dataset的discharge diagnosis。利用tree-of-sequences LSTM进行编码,adversarial learning进行预测的提升。

4. Baumel, Tal, et al. "Multi-label classification of patient notes: case study on ICD code assignment." Workshops at the Thirty-Second AAAI Conference on Artificial Intelligence. 2018.

被引用次数:23

思想:

提出了HA-GRU的方法。是一个层次GRU方法,第一层GRU编码word, 第二层GRU编码sentence。sentence attention得到每个word的权重,label attention得到sentence的权重,然后通过隐含层+softmax得到label分类。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值