[论文阅读笔记40]recall与rank相结合的多视角中文过程术语标准化

39 篇文章 14 订阅
该博文介绍了一种用于中文过程术语标准化的多视角联合召回和排名框架,旨在解决多含义和短文本挑战。文中提出了多任务候选生成器、关键词注意力排名器和融合模块,通过pairwise召回和keyword-sensitive排名提高效率。实验在CHIP2019@OpenKG数据集上展示了优秀效果,与现有方法相比有显著改进。
摘要由CSDN通过智能技术生成

题目

2021 - A multi-perspective combined recall and rank framework for Chinese procedure terminology normalization
解决中文术语标准化; 华东理工大学
https://github.com/sxthunder/CMTN
https://arxiv.org/pdf/2101.09101.pdf

摘要

提出一个关于召回和排名的组合框架.
由多任务候选生成器(MTCG),关键字关注力排名器(KAR),融合模块(FB)组成。

EMR的问题

image-20210607113803756

  1. 多含义(Multi implication)

  2. 短文本(Short text): 平均只有9~12个字

  3. 关键词灵感(Keywords sensitive);

  4. 高效

    解决方法:”direct rank” and ”rank follows recall”.

    Direct rank

    string match(字符串匹配), dictionary look up, multi-class classifification, point-wise learning to rank

    字符串匹配,字典查找解决不了同义词问题;对于多分类的输出空间与知识库中的术语的数量相同;point-wise把术标准化看成是一个二分类问题, 输入为医学术语,输出为两个文本的相似度,当词典的词量大时,效果是一个问题。

    Rank follows recall

    基于这个问题,出现了“rank follows recall”:两阶段框架: 首先采用启发式规则或统计方法生成候选术语,然后采用模型对候选进行排序。

    这里的recall只是把Rank的候选集规模作了缩小,所以这里面的相似排名是没有用的,这个排名在rank步进行。

    对于多含义问题,这个论文解决了:《2020 - A knowledge-driven generative model for multi-implication chinese medical procedure entity normalization》,使用序列生成模型来解决,效率也是比较低的。

    本文提出:”combined recall and rank”框架。

    首先通过Pairwise recall模型来召回文本和语义相似的术语; (提出在线有效的负采样策略,提高了召开的效率)

    然后根据上下文和关键字信息对这些候选人进行排名;(设计了分任务去处理多含义的情况)

    最后,相似性来自召回和秩步骤合并,生成归一化结果。

    提出的框架

    image-20210607120341009

    Multi-task candidate generator

    1.Multi-task model

    MTCG处理召回(deep metric learning)与歧义数两个任务;

    procedure文本与其相应的术语视为相似的文本对;---- 文本相似问题

    歧义数看作为一个回归问题; ----- 回归问题

    数据统计分布情况:

    image-20210607140837877

    标准的术语被看成是正样本,其它术语看成为负样本,学习训练的损失函数:

    image-20210608140832887

    1. Negative sampling

    负抽样策略算法:

    Tf-idf: 计算mentions与terminologies的tf-idf值,选择top-kn个负样本(非常标准化的mentios);

    Tree coding: 参考例如ICD9的数据库来进行抽样;

    Keywords replacing: 代替关键字。

    Online negative sampling

    image-20210608141103750

    Keywords Attentive Ranker

    Keywords attentive ranker(KAR): 关键词注意力排名,主要基于procedure部位与procedure类型进行对候选元素进行排序。它的训练数据是能过MTCG来生成的,对于每个mention选择top10的术语作为候选排序对象,排序采用point-wise方法进行。

    在开始的地方增加了[PS],[PT];[PS]表示procedure的部位, [PT]表示procedure的类型; [CLS]表示为表示整个句子的语义信息。

    最终定义为:

    s = {[CLS], [P S], [P T], mention, [SEP], candidate, [SEP]}

    image-20210608144956668

    bert多头表示为:

    image-20210608145806884

    Mask矩阵表示为词之间的关注矩阵。

    Fusion Block

    这个模型是应用于推理阶段的,进行对MCTG与KAR进行融合。

    首先,对每个mention m, 经MTCG模型进行召回候选集C,C是标准术语集;

    然后,计算d(m, c_i)表示mention与c_i的距离;

    最后,进行排序;

    image-20210608152058959

    对于歧义数大于3的情况,使用一个域值去处理:

    image-20210608153245015

    实验

    数据集:CHIP 2019 @ OpenKG

    image-20210608153537497

    与其它模型对比结果

    image-20210608153931567

    统计的方法:Tf-idf,edit-distance

    【1】基于n-gram为特征去训练一个二元分类查找相似特征; – Zhang

    【2】”recall and rank”,使用tf-idf进行候选召回,使用ESIM作为实验指标计算

    可是两都都处理不了多含义问题; – Liang

    【3】在通过生成方法进行召回,基于bert来进行排序,多含义数在第一步计算出来; –Transformer

    消融分析

    image-20210608155526858

    MTCG是一个非常关键的模块,删掉它会下降25%的指标;

    KAR解决歧义问题;

    image-20210608155841325

    不同负采样的策略影响

    image-20210608160039913

    在训练过程中,对于test集的不同的负采样策略与epoch相关性:

    image-20210608160210844

    召回的有效性和效率

    image-20210608161157427

    Implication number prediction – 歧义数据预测研究

    image-20210608161309481

    总结

    论文所研究的内容还是比较多的,就是在查找相关表格引用时,有些标得不准确。

    论文解决了一个mention对应于多个标准术语的问题,在实验结果上也表现出很不错的效果。

    相关工作

    Medical terminology normalization

    Text matching

    参考

    [1] Jiaying Zhang, Qi Wang, Zhixing Zhang, Yangming Zhou, Qi Ye, Huanhuan Zhang, Jiahui Qiu, and Ping He. An effffective standardization method for the lab indicators in regional medical health platform using n-grams and stacking. In 2018 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), pages 1602–1609. IEEE, 2018.

    [2] Ming Liang, ZhiXing Zhang, JiaYing Zhang, Tong Ruan, Qi Ye, and Ping He. Lab indicators standardization method for the regional healthcare platform: a case study on heart failure. BMC Medical Informatics and Decision Making, 20(14):1–11, 2020.

    [3] Jinghui Yan, Yining Wang, Lu Xiang, Yu Zhou, and Chengqing Zong. A knowledge-driven generative model for multi-implication chinese medical procedure entity normalization. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1490–

    1499, 2020.

    happyprince , https://blog.csdn.net/ld326/article/details/117717799

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值