本文对肿瘤数据进行信息抽取,包括肿瘤原发部位和原发肿瘤大小的联合抽取(因为二者是存在关联的所以可以采用联合抽取),肿瘤转移部位的抽取。
- 肿瘤原发部位(实体抽取) BILSTM-CRF
- 基于肿瘤大小的特殊结构(MM或CM结尾,还有*,x,X等符号)来获取候选词
- 基于候选词和肿瘤原发部位形成元组,计算得分最高的元组中的肿瘤大小作为原发肿瘤大小
- 肿瘤转移部位的抽取 先筛选句子,使用CNN模型对句子进行分类,最后使用BILSTM-CRF做实体抽取
本文提出了一种基于关键信息全域随机替换的伪数据生成算法,对已标注的病历文本进行伪标注,获取伪标注数据,实现标注病历文本数量和类型的扩充。
总结:本文是做数据抽取的,对于独立数据进行了BILSTM-CRF抽取,有关联的数据采用了联合数据。在数据处理方面通过伪造数据来扩大数据集,节省人工成本,然后抽取肿瘤转移部位的时候是先抽取文本中的相关句子然后再对其进行抽取,把无关数据进行剔除,降低噪音。本文是在比赛中取得了第三名,与前两名的区别主要是前两名使用了预训练的BERT层,使用之后能够提高模型效果但是性能会降低。