疾病自动编码任务的调研(二)——相关比赛及数据集

虽然上一个坑还没有填完,但是今天要开一个新坑哈哈。

ICD自动编码任务虽然是个小众任务,但国内外也一直有不少团队在做,而且这个任务与DRG分组、病历质检、医保理赔都有关系,可以说是智慧医疗的基础,所以今天就来总结一下和这个任务相关的比赛和数据集吧。

(一)相关比赛

CLEF eHealth (International Conference of the Cross-Language Evaluation Forum for European Languages) 在2017-2020期间举办的评测任务,Task-1均与ICD自动编码相关。

CLEF-2017

数据语言:French/English
文档类型:死亡证明
在这里插入图片描述

相关链接:https://link.springer.com/chapter/10.1007/978-3-319-65813-1_26

CLEF-2018

数据语言:French/Hungarian/Italian
文档类型:死亡证明。Free-text descriptions of causes of death as reported by physicians in the standardized causes of death forms. Each document was manually coded by experts with ICD10 per international WHO standards.
具体描述:

  • For the French subtask, a training set of 125, 384 death certificates and an independent test set of 11, 932 death certificates was annotated with respect to ICD10 codes and supporting text evidence by professional coders.
  • For the Hungarian subtask, a training set of 84, 703 death certificates and an independent test set of 21, 176 death certificates was assigned ICD10 codes by professional coders.
  • For the Italian subtask, a training set of 14, 502 death certificates and an independent test set of 3, 618 death certificates was assigned ICD10 codes by professional coders.

相关链接:https://link.springer.com/chapter/10.1007/978-3-319-98932-7_26

CLEF-2019

数据语言:German
文档类型:动物实验非技术总结(NTS) 用ICD-10德版标注
具体描述:
NTSs of animal experiments using codes from the German version of the ICD-10. The NTPs were short publicly-available summaries5 written as part of the approval procedure for animal experiments in Germany. The database currently contains more than 10, 000 NTPs (as of May/2019).

The task consisted of assigning codes with respect to chapters or groups of the 2016 German Modification of ICD-106. The training and development data set7 contained a total of 8, 386 NTSs of animal experiments recently carried out in Germany (as of September 2018). It was split into training and development sets with 7, 544 and 842 NTSs, respectively. For the test set, we released 407 NTSs8 for which participants should predict the ICD-10 codes.

相关链接:https://link.springer.com/chapter/10.1007/978-3-030-28577-7_26

CLEF-2020

数据语言:Spanish
文档类型:临床病理文档 clinical case documents
具体描述:
A collection of 1,000 carefully selected clinical cases resembling EHRs classified manually using the MyMiner File Labelling tool by a practicing physician with assistance of a clinical documentalist.

This corpus contains a total of 16,504 sentences and 396,988 tokens, with an average of 396.99 tokens per clinical case, thus these records are considerably longer than the data used by past CLEF clinical coding tasks employing death certificates and non-technical summaries of animal experimentation.

The CodiEsp corpus covers 3,427 unique ICD-10 codes corresponding to a total of 18,435 manual document-code annotations. The most common code is r52, corresponding to “unspecified pain”; which is repeated 361 times across the entire corpus. 1,830 codes appear more than once, among which 346 codes appear more than 10 times.

相关链接:https://link.springer.com/chapter/10.1007/978-3-030-58219-7_19

CLEF-2021

2021只有两个任务,任务一是Spanish的超声报告,但是做的命名实体识别,这一年没有ICD编码评测任务。
相关链接:https://link.springer.com/chapter/10.1007%2F978-3-030-85251-1_21#citeas

(二)数据集

英文数据集

1. MIMIC数据集(MIMIC-II & MIMIC-III)
公开数据集
数据集/论文发布地址:(Johnson et al.,2016): MIMIC-III, a freely accessible critical care database.
数据集描述:
做这个任务使用范围最广的数据集。

MIMIC-II数据集包含2001至2008年在以色利某医疗中心的ICU住院的30000多名患者的数据。

MIMIC-III-Full数据集收集了该医疗中心ICU从2001年至2012年期间的4万多名患者的数据。

MIMIC-III-50是MIMIC-III-Full的子集,其中包括至少出现了一次频率在前50的标签的数据。

The Massachusetts Institute of Technology (MIT) Laboratory for Computational Physiology maintains the database and de-identifies the data per Health Insurance Portability and Accountability Act Privacy Rules.

2. CCHMC数据集
公开数据集
数据集/论文发布地址(Farkas et al.,2008):Automatic construction of rule-based ICD-9-CM coding systems
数据来自辛辛那提儿童医院医学中心放射科(Cincinnati Children s Hospital Medical Center’s Department of Radiology,CCHMC)。
CCHMC的机构审查委员会批准了数据的发布。
数据集统计信息:

  • CMC数据集总共有1954个放射透视报告,有45个不同的编号标签。
  • CMC数据集有75%的标签对应的样本在训练集中出现的次数少于50,
  • 50%的标签对应的样本在训练集中出现的次数少于10次。
  • CMC数据集报告的平均长度在21词。

3. CDC数据集
公开数据集 ;CLEF-2017比赛指定数据集。
数据集来源:https://link.springer.com/chapter/10.1007/978-3-319-65813-1_26
CDC 数据集由美国疾病控制中心 (CDC) 提供,由2015年在美国以电子方式收集的死亡证明文本组成。这些都是由于自然原因造成的记录,即不包括与伤害相关的死亡。

4. UKSmall & UKLarge 数据集
非公开数据集。 数据来自肯塔基大学 (UKY) 医学中心2011-2012年住院患者间的 71,463 个电子病历。UKSmall是UKLarge的子集。
数据集来源:(Kavuluru et al., 2015)

在这里插入图片描述

中文数据集

1. Xiangya数据集
非公开。 Xiangya数据集包含了中南大学三家附属医院近年来的电子健康病例数据。

数据集来源:Ying Yu, Min Li, Liangliang Liu, Zhihui Fei, Fang- Xiang Wu, and Jianxin Wang. 2019. Automatic ICD code assignment of Chinese clinical notes based on multilayer attention birnn. Journal of Biomedical Informatics, 91:103–114. 论文链接

2. CN-full&CN-50数据集
非公开数据集。 CN-Full数据集包含50678份中文临床笔记和6200个ICD-10编码。CN-50是CN-Full数据集的子集,其中包括至少出现了一次频率在前50的ICD-10编码的数据。

数据集来源: Pengfei Cao,Chenwei Yan,Xiangling Fu,Yubo Chen,Kang Liu,Jun Zhao,Shengping Liu, and Weifeng Chong. Clinical-coder: Assigning interpretable ICD-10 codes to Chinese clinical notes. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations,pages 294–301. ACL 2020. 论文链接

欧洲各国语言数据集

1. CepiDc-2017数据集
公开数据集;法语数据集 ;CLEF-2017比赛指定数据集。

数据集来源论文 CLEF eHealth 2017 Multilingual InformationExtraction task
由法国健康与医学研究所 (INSERM) 提供,包含2006年至2014年期间从法国医生和医院收集的死亡证明文本数据。

2.CepiDc-2018数据集
法语。
也是死亡证明。CLEF-2018比赛指定数据集之一。

3. CLEF-Italian数据集
意大利语。
死亡证明。CLEF-2018比赛指定数据集之一。

4. CLEF-Hungarian数据集
匈牙利语。
死亡证明,CLEF-2018比赛指定数据集之一。

5. CLEF-German数据集
德语。
动物实验的非技术性总结。用德版的ICD-10标注的。CLEF-2019比赛指定数据集。

6. CLEF-Spanish数据集
西班牙语。
电子病历,CLEF-2020比赛指定数据集。

7. UZA数据集
荷兰语
UZA数据集中的数据来自安特卫普的临床数据仓库大学医院,由完全匿名的住院病人的历史数据的随机子集组成,涵盖2年的数据,共56641条数据。其中包含结构化和非结构化(文本)数据。
数据集来源Elyne et al.: Data integration of structured and unstructured sources for assigning clinical codes to patient stays

大概就是这么多啦,下次更新可能会补个图吧,今天不想找截图了。

目录列表: 2dplanes.arff abalone.arff ailerons.arff Amazon_initial_50_30_10000.arff anneal.arff anneal.ORIG.arff arrhythmia.arff audiology.arff australian.arff auto93.arff autoHorse.arff autoMpg.arff autoPrice.arff autos.arff auto_price.arff balance-scale.arff bank.arff bank32nh.arff bank8FM.arff baskball.arff bodyfat.arff bolts.arff breast-cancer.arff breast-w.arff breastTumor.arff bridges_version1.arff bridges_version2.arff cal_housing.arff car.arff cholesterol.arff cleveland.arff cloud.arff cmc.arff colic.arff colic.ORIG.arff contact-lenses.arff cpu.arff cpu.with.vendor.arff cpu_act.arff cpu_small.arff credit-a.arff credit-g.arff cylinder-bands.arff delta_ailerons.arff delta_elevators.arff dermatology.arff detroit.arff diabetes.arff diabetes_numeric.arff echoMonths.arff ecoli.arff elevators.arff elusage.arff eucalyptus.arff eye_movements.arff fishcatch.arff flags.arff fried.arff fruitfly.arff gascons.arff glass.arff grub-damage.arff heart-c.arff heart-h.arff heart-statlog.arff hepatitis.arff house_16H.arff house_8L.arff housing.arff hungarian.arff hypothyroid.arff ionosphere.arff iris.2D.arff iris.arff kdd_coil_test-1.arff kdd_coil_test-2.arff kdd_coil_test-3.arff kdd_coil_test-4.arff kdd_coil_test-5.arff kdd_coil_test-6.arff kdd_coil_test-7.arff kdd_coil_train-1.arff kdd_coil_train-3.arff kdd_coil_train-4.arff kdd_coil_train-5.arff kdd_coil_train-6.arff kdd_coil_train-7.arff kdd_el_nino-small.arff kdd_internet_usage.arff kdd_ipums_la_97-small.arff kdd_ipums_la_98-small.arff kdd_ipums_la_99-small.arff kdd_JapaneseVowels_test.arff kdd_JapaneseVowels_train.arff kdd_synthetic_control.arff kdd_SyskillWebert-Bands.arff kdd_SyskillWebert-BioMedical.arff kdd_SyskillWebert-Goats.arff kdd_SyskillWebert-Sheep.arff kdd_UNIX_user_data.arff kin8nm.arff kr-vs-kp.arff labor.arff landsat_test.arff landsat_train.arff letter.arff liver-disorders.arff longley.arff lowbwt.arff lung-cancer.arff lymph.arff machine_cpu.arff mbagrade.arff meta.arff mfeat-factors.arff mfeat-fourier.arff mfeat-karhunen.arff mfeat-morphological.arff mfeat-pixel.arff mfeat-zernike.arff molecular-biology_promoters.arff monks-problems-1_test.arff monks-problems-1_train.arff monks-problems-2_test.arff monks-problems-2_train.arff monks-problems-3_test.arff monks-problems-3_train.arff mushroom.arff mv.arff nursery.arff optdigits.arff page-blocks.arff pasture.arff pbc.arff pendigits.arff pharynx.arff pol.arff pollution.arff postoperative-patient-data.arff primary-tumor.arff puma32H.arff puma8NH.arff pwLinear.arff pyrim.arff quake.arff ReutersCorn-test.arff ReutersCorn-train.arff ReutersGrain-test.arff ReutersGrain-train.arff schlvote.arff segment-challenge.arff segment-test.arff segment.arff sensory.arff servo.arff sick.arff sleep.arff solar-flare_1.arff solar-flare_2.arff sonar.arff soybean.arff spambase.arff spectf_test.arff spectf_train.arff spectrometer.arff spect_test.arff spect_train.arff splice.arff sponge.arff squash-stored.arff squash-unstored.arff stock.arff strike.arff supermarket.arff triazines.arff unbalanced.arff vehicle.arff veteran.arff vineyard.arff vote.arff vowel.arff water-treatment.arff waveform-5000.arff weather.nominal.arff weather.numeric.arff white-clover.arff wine.arff wisconsin.arff zoo.arff
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值