《面向中文医疗事件的联合抽取方法》CSCD

本文对肿瘤数据进行信息抽取,包括肿瘤原发部位和原发肿瘤大小的联合抽取(因为二者是存在关联的所以可以采用联合抽取),肿瘤转移部位的抽取。

  • 肿瘤原发部位(实体抽取)       BILSTM-CRF
  • 基于肿瘤大小的特殊结构(MM或CM结尾,还有*,x,X等符号)来获取候选词
  • 基于候选词和肿瘤原发部位形成元组,计算得分最高的元组中的肿瘤大小作为原发肿瘤大小
  • 肿瘤转移部位的抽取 先筛选句子,使用CNN模型对句子进行分类,最后使用BILSTM-CRF做实体抽取

本文提出了一种基于关键信息全域随机替换的伪数据生成算法,对已标注的病历文本进行伪标注,获取伪标注数据,实现标注病历文本数量和类型的扩充。

总结:本文是做数据抽取的,对于独立数据进行了BILSTM-CRF抽取,有关联的数据采用了联合数据。在数据处理方面通过伪造数据来扩大数据集,节省人工成本,然后抽取肿瘤转移部位的时候是先抽取文本中的相关句子然后再对其进行抽取,把无关数据进行剔除,降低噪音。本文是在比赛中取得了第三名,与前两名的区别主要是前两名使用了预训练的BERT层,使用之后能够提高模型效果但是性能会降低。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值