先挖一个坑
任务定义
给定一段医疗诊断或死亡证明的文本,由机器自动地给出相应的疾病分类编码。
国际疾病分类(international Classification of diseases ,ICD),是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统。
数据集
- MIMIC数据集(MIMIC-II & MIMIC-III)
公开数据集
相关论文
-
Shi, Haoran, et al. “Towards automated icd coding using deep learning.” arXiv preprint arXiv:1711.04075 (2017). [paper]
使用MIMIC-III数据集,从中提取出diagnosis descriptions进行ICD编码映射。
主要方法:RNN对document和ICD titles分别编码,然后使用attention选择出diagnosis descriptions进行下一步,在这里需要对document中的每一个diagnosis descriptions和所有的ICD titles进行比对。最终使用sigmoid激活函数二分类。
-
Duarte, Francisco, et al. “Deep neural models for ICD-10 coding of death certificates and autopsy reports in free-text.” Journal of biomedical informatics 80 (2018): 64-77.
使用多种医疗数据做死亡原因ICD编码。创新点是提出了一种神经网络结构预测chapters, blocks, and full-codes三种类型ICD编码。具体是使用RNN编码不同源数据,进行merge,然后分别训练三个模型预测chapters, blocks, and full-codes,其中前两类是多分类问题,最后一层使用softmax;第三种是二分类,最后一层使用的sigmoid。比较新颖的是在最后网络层使用标签之间的共现关系初始化参数。
-
Mullenbach, James, et al. “Explainable prediction of medical codes from clinical text.” arXiv preprint arXiv:1802.05695(2018).
对discharge summaries自动编码到ICD-9,是一个multilabel text classification任务。主要方法是使用CNN对document进行编码,然后attention出来根据不同的label选择document不同的部分作为最终的输出进行预测。
-
Pengtao Xie, Haoran Shi, Ming Zhang, Eric P. Xing. “A neural architecture for automated icd coding.” Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018.
使用MIMIC-III dataset的discharge diagnosis。利用tree-of-sequences LSTM进行编码,adversarial learning进行预测的提升。
-
Baumel, Tal, et al. “Multi-label classification of patient notes: case study on ICD code assignment.” Workshops at the Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
提出了HA-GRU的方法。是一个层次GRU方法,第一层GRU编码word, 第二层GRU编码sentence。sentence attention得到每个word的权重,label attention得到sentence的权重,然后通过隐含层+softmax得到label分类。
-
A Label Attention Model for ICD Coding from Clinical Text (IJCAI 2020) [paper]
参考:
https://blog.csdn.net/u010960155/article/details/92233741