基于NLP的医学搜索相关性判断

摘  要:

本文介绍了一个基于自然语言处理技术的医学搜索相关性判断实验。本项目将该任务转为自然语言处理中常见的多分类任务,采用“通用预训练模型”,“领域预训练模型”,“调参调优”,“模型融合”的四阶段范式,选择使用了优势互补的BERT-wwm-ext、ERNIE、Roberta_large三个通用预训练模型;针对二元句子查询和医疗背景,分别选择了Roberta_large_pair和Ernie-health-zh的领域专用预训练模型。针对该赛题中训练样本数据较少且不平衡这一难点,在经过数据扩充和数据交叉后,使用了对抗性权重扰动(AWP)对抗训练、随机权重衰减(SWA)、设置分层学习率、Multi-Sample Dropout、K折交叉验证等技术增强模型的鲁棒性,并通过融合不同优势的多个模型以及两阶段的伪标签学习,来对最终结果进行预测。

最终,本项目训练的模型在阿里天池竞赛中获得了Accuracy 0.887的成绩,在总共22979个参赛队伍中排名第1。该实验结果表明,自然语言处理技术在医学相关搜索相关性判断方面具有良好的应用潜力,对相关搜索的语义分析与归类具有积极意义。

 

1 项目介绍

1.1 赛题描述

Query(即搜索词)之间的相关性是评估两个Query所表述主题的匹配程度,即判断Query-A和Query-B是否发生转义,以及转义的程度也是自然语言处理中的的重要论题也是各个搜索引擎中需要计算的问题。Query的主题是指Query的专注点,判定两个查询词之间的相关性是一项重要的任务,常用于长尾Query的搜索质量优化场景,本任务数据集就是在这样的背景下产生的。数据集来源于中文医疗信息评测基准CBLUE[1],由阿里巴巴夸克医疗事业部提供。

1.2 赛题说明

日常生活中,如果我们在搜索引擎中输入一次查询,如图 1,搜索引擎常常会自动推荐很多相似的搜索查询推荐。此时即对于一个你输入的 Title,搜索引擎自动为你推荐了一些相关的 Query供你进行选择,用户可以直接点击搜索引擎推荐的查询链接,从而提高用户搜索体验,也能提高搜索引擎的准确性。本赛题中我们需要完成的任务即与这个过程相关。

1 阿里夸克App搜索示意图,搜索query为“小孩子打呼噜”

       在本赛题中,我们将Query和Title的相关度共分为3档(0-2),0分为相关性最差,2分表示相关性最好。

  • 2分:表示A与B等价,表述完全一致
  • 1分:B为A的语义子集,B指代范围小于A
  • 0分:B为A的语义父集,B指代范围大于A;或者A与B语义毫无关联

2分:Query-A和Query-B主题等价,表述一致,例如表 1;

1 2分医学检索词相关性示例

Query-A

Query-B

解释

小孩子打呼噜是什么原因引起的

小孩子打呼噜什么原因

双眼皮怎么遗传

双眼皮遗传规律

黄体

女性黄体

点痣

点痣祛痣

1分:B为A的语义子集,B指代范围小于A,例如表 2

2 1分医学检索词相关性示例

Query-A

Query-B

解释

双眼皮遗传规律

内双眼皮遗传

尿酸高手脚酸痛

尿酸高 脚疼

海绵状血管瘤

多发性海绵状血管瘤

足藓

足藓如何治疗

室管膜囊肿与蛛网膜

左侧极蛛网膜囊肿

室管膜囊肿与蛛网膜为不同部位,但B为蛛网膜的一部分,子集。

板蓝根

好医生板蓝根

怀孕血糖高对胎儿有什么影响

怀孕初期血糖高对胎儿的影响

什么感冒药效果好

什么感冒药起效快

效果好有程度及快慢之分,故B为子集

搭桥手术和支架的区别

什么是支架和搭桥

A表述:搭桥的概念,支架的概念,二者的区别。B表述:搭桥的概念,支架的概念。B表述了A的一部分,故子集。

0分:第一种情况: B为A的语义父集,B指代范围大于A,例如表 3;

3 0分医学检索词B为A的语义父集相关性示例

Query-A

Query-B

解释

双眼皮遗传规律

单眼皮与双眼皮遗传

小孩子打呼噜什么原因

孩子打呼噜

牛蒡可以煮着吃

牛蒡如何吃

死了的大闸蟹能吃吗

死了的螃蟹能吃么

拔智齿后悔死了

拔了智齿

B是A必要前提条件,没有B的发生就没有A

光子嫩肤后注意事项

光子嫩肤的注意事项

白血病血常规有啥异常

白血病血检有哪些异常

第二种情况:A与B语义毫无关联,例如表 4;

4 0分医学检索词无关联相关性示例

Query-A

Query-B

解释

脑梗最怕的四种食物

脑梗患者吃什么好

牛蒡可以煮着吃

牛蒡有副作用吗

深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明,该项目是个人手打设计项目,答辩评审分达到99分,代码都经过调试测试,确保可以运行!欢迎下载使用,可用于小白学习、进阶。该资源主要针对计算机、通信、人工智能、自动化等相关专业的学生、老师或从业者下载使用,亦可作为期末课程设计、课程大作业、毕业设计等。项目整体具有较高的学习借鉴价值!基础能力强的可以在此基础上修改调整,以实现不同的功能。 深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性判断python源码+文档说明深度学习课设作业-天池比赛NLP医学搜索Query相关性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

上山打老虎D

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值