基于BiLSTM-CRF模型医疗数据实体识别实战
1数据来源与加载
1.1 数据来源
本项目是阿里天池大赛的一个经典赛题,《瑞金医院MMC人工智能辅助构建知识图谱大赛》,赛题要求选手在糖尿病相关的学术论文和临床指南的基础上,做实体的标注,也就是NLP领域常说的,命名实体识别(Named Entity Recognition, NER)任务。
天池赛题地址:https://tianchi.aliyun.com/competition/entrance/231687/information
输入:每个糖尿病患者,无论是病情轻重,不论是注射胰岛素,还是口服降糖药,都必须合理地控制饮食。
输出:
[[‘Disease’, ‘糖尿病’], [‘Drug’, ‘胰岛素’], [‘Drug’, ‘口服降糖药’]]
1.2 数据类别名称和定义
疾病相关:
1、疾病名称 (Disease),如I型糖尿病。
2、病因(Reason),疾病的成因、危险因素及机制。比如“糖尿病是由于胰岛素抵抗导