题目
2021 - A multi-perspective combined recall and rank framework for Chinese procedure terminology normalization
解决中文术语标准化; 华东理工大学
https://github.com/sxthunder/CMTN
https://arxiv.org/pdf/2101.09101.pdf
摘要
提出一个关于召回和排名的组合框架.
由多任务候选生成器(MTCG),关键字关注力排名器(KAR),融合模块(FB)组成。
EMR的问题
-
多含义(Multi implication)
-
短文本(Short text): 平均只有9~12个字
-
关键词灵感(Keywords sensitive);
-
高效
解决方法:”direct rank” and ”rank follows recall”.
Direct rank
string match(字符串匹配), dictionary look up, multi-class classifification, point-wise learning to rank
字符串匹配,字典查找解决不了同义词问题;对于多分类的输出空间与知识库中的术语的数量相同;point-wise把术标准化看成是一个二分类问题, 输入为医学术语,输出为两个文本的相似度,当词典的词量大时,效果是一个问题。
Rank follows recall
基于这个问题,出现了“rank follows recall”:两阶段框架: 首先采用启发式规则或统计方法生成候选术语,然后采用模型对候选进行排序。
这里的recall只是把Rank的候选集规模作了缩小,所以这里面的相似排名是没有用的,这个排名在rank步进行。
对于多含义问题,这个论文解决了:《2020 - A knowledge-driven generative model for multi-implication chinese medical procedure entity normalization》,使用序列生成模型来解决,效率也是比较低的。
本文提出:”combined recall and rank”框架。
首先通过Pairwise recall模型来召回文本和语义相似的术语; (提出在线有效的负采样策略,提高了召开的效率)
然后根据上下文和关键字信息对这些候选人进行排名;(设计了分任务去处理多含义的情况)
最后,相似性来自召回和秩步骤合并,生成归一化结果。
提出的框架
Multi-task candidate generator
1.Multi-task model
MTCG处理召回(deep metric learning)与歧义数两个任务;
procedure文本与其相应的术语视为相似的文本对;---- 文本相似问题
歧义数看作为一个回归问题; ----- 回归问题
数据统计分布情况:
标准的术语被看成是正样本,其它术语看成为负样本,学习训练的损失函数:
- Negative sampling
负抽样策略算法:
Tf-idf: 计算mentions与terminologies的tf-idf值,选择top-kn个负样本(非常标准化的mentios);
Tree coding: 参考例如ICD9的数据库来进行抽样;
Keywords replacing: 代替关键字。
Online negative sampling
Keywords Attentive Ranker
Keywords attentive ranker(KAR): 关键词注意力排名,主要基于procedure部位与procedure类型进行对候选元素进行排序。它的训练数据是能过MTCG来生成的,对于每个mention选择top10的术语作为候选排序对象,排序采用point-wise方法进行。
在开始的地方增加了[PS],[PT];[PS]表示procedure的部位, [PT]表示procedure的类型; [CLS]表示为表示整个句子的语义信息。
最终定义为:
s = {[CLS], [P S], [P T], mention, [SEP], candidate, [SEP]}
bert多头表示为:
Mask矩阵表示为词之间的关注矩阵。
Fusion Block
这个模型是应用于推理阶段的,进行对MCTG与KAR进行融合。
首先,对每个mention m, 经MTCG模型进行召回候选集C,C是标准术语集;
然后,计算d(m, c_i)表示mention与c_i的距离;
最后,进行排序;
对于歧义数大于3的情况,使用一个域值去处理:
实验
数据集:CHIP 2019 @ OpenKG
与其它模型对比结果
统计的方法:Tf-idf,edit-distance
【1】基于n-gram为特征去训练一个二元分类查找相似特征; – Zhang
【2】”recall and rank”,使用tf-idf进行候选召回,使用ESIM作为实验指标计算
可是两都都处理不了多含义问题; – Liang
【3】在通过生成方法进行召回,基于bert来进行排序,多含义数在第一步计算出来; –Transformer
消融分析
MTCG是一个非常关键的模块,删掉它会下降25%的指标;
KAR解决歧义问题;
不同负采样的策略影响
在训练过程中,对于test集的不同的负采样策略与epoch相关性:
召回的有效性和效率
Implication number prediction – 歧义数据预测研究
总结
论文所研究的内容还是比较多的,就是在查找相关表格引用时,有些标得不准确。
论文解决了一个mention对应于多个标准术语的问题,在实验结果上也表现出很不错的效果。
相关工作
Medical terminology normalization
Text matching
参考
[1] Jiaying Zhang, Qi Wang, Zhixing Zhang, Yangming Zhou, Qi Ye, Huanhuan Zhang, Jiahui Qiu, and Ping He. An effffective standardization method for the lab indicators in regional medical health platform using n-grams and stacking. In 2018 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), pages 1602–1609. IEEE, 2018.
[2] Ming Liang, ZhiXing Zhang, JiaYing Zhang, Tong Ruan, Qi Ye, and Ping He. Lab indicators standardization method for the regional healthcare platform: a case study on heart failure. BMC Medical Informatics and Decision Making, 20(14):1–11, 2020.
[3] Jinghui Yan, Yining Wang, Lu Xiang, Yu Zhou, and Chengqing Zong. A knowledge-driven generative model for multi-implication chinese medical procedure entity normalization. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1490–
1499, 2020.
happyprince , https://blog.csdn.net/ld326/article/details/117717799