CHIP-2020 中文医学文本实体关系抽取

该项目基于CHIP-2020-2数据集,采用RoFormerV2模型进行医学文本的命名实体识别和关系分类。在模型训练中应用了FGM对抗训练提升性能,遇到并解决了Keras和TensorFlow版本相关的问题,以及GPU资源管理和文件路径错误。
摘要由CSDN通过智能技术生成

来源:这里

这个项目的本质是-----------医学文本的实体关系联合抽取问题,既要解决命名实体识别,又要解决关系分类问题。使用RoFormerV2模型作为预训练模型,GPLinker作为下游模型,在Embedding层添加FGM对抗训练增加模型性能。

一、数据集

  • CHIP-2020-2中文医学文本实体关系抽取数据集

      数据集包含儿科训练语料和百种常见疾病训练语料,儿科训练语料来源于518种儿科疾病,百种常见疾病训练语料来源于109种常见疾病。
      近7.5万三元组数据,2.8万疾病语句和53种定义好的schema。
    
  • 数据集格式

{
   
   "spo_list" : [
      {
   
         "Combined" : true,
         "object" : {
   
            "@value" : "外照射"
         },
         "object_type" : {
   
            "@value" : "其他治疗"
         },
         "predicate" : "放射治疗",
         "subject" : "慢性胰腺炎",
         "subject_type" : "疾病"
      },
      {
   
         "Combined" : true,
         "object" : {
   
            "@value" : "外照射"
         },
         "object_type" : {
   
            "@value" : "其他治疗"
         },
         "predicate" : "放射治疗",
         "subject" : "非肿瘤性疼痛",
         "subject_type" : "疾病"
      }
   ],
   "text" : "慢性胰腺炎@### 低剂量放射 自1964年起,有几项病例系列报道称外照射 (5-50Gy) 可以有效改善慢性胰腺炎患者的疼痛症状。慢性胰腺炎@从概念上讲,外照射可以起到抗炎和止痛作用,并且已经开始被用于非肿瘤性疼痛的治疗。"
}
临床实践文本可能不提及主题疾病---每句之前增加主题疾病实体,并以@和原文分割
Combined-----三元组来源上下多个句子,拼接在一起
”text”----记录来源文本
SPO表示法。S-头实体,O-尾实体,P-Predicate,即「关系(Relation)」更专业的叫法。
  • 本代码需要将数据处理成如下的格式:
{
   
   "spo_list" : [
      {
   
         "Combined" : true,
         "object" : "外照射",
         "object_type" : "其他治疗",
         "predicate" : "放射治疗",
         "subject" : "慢性胰腺炎",
         "subject_type" : "疾病"
      },
      {
   
         "Combined" : true,
         "object" : "外照射",
         "object_type" : "其他治疗",
         "predicate" : "放射治疗",
         "subject" : "非肿瘤性疼痛",
         "subject_type" : "疾病"
      }
   ],
   "text" : "慢性胰腺炎@### 低剂量放射 自1964年起,有几项病例系列报道称外照射 (5-50Gy) 可以有效改善慢性胰腺炎患者的疼痛症状。慢性胰腺炎@从概念上讲,外照射可以起到抗炎和止痛作用,并
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值