摘 要:
本文介绍了一个基于自然语言处理技术的医学搜索相关性判断实验。本项目将该任务转为自然语言处理中常见的多分类任务,采用“通用预训练模型”,“领域预训练模型”,“调参调优”,“模型融合”的四阶段范式,选择使用了优势互补的BERT-wwm-ext、ERNIE、Roberta_large三个通用预训练模型;针对二元句子查询和医疗背景,分别选择了Roberta_large_pair和Ernie-health-zh的领域专用预训练模型。针对该赛题中训练样本数据较少且不平衡这一难点,在经过数据扩充和数据交叉后,使用了对抗性权重扰动(AWP)对抗训练、随机权重衰减(SWA)、设置分层学习率、Multi-Sample Dropout、K折交叉验证等技术增强模型的鲁棒性,并通过融合不同优势的多个模型以及两阶段的伪标签学习,来对最终结果进行预测。
最终,本项目训练的模型在阿里天池竞赛中获得了Accuracy 0.887的成绩,在总共22979个参赛队伍中排名第1名。该实验结果表明,自然语言处理技术在医学相关搜索相关性判断方面具有良好的应用潜力,对相关搜索的语义分析与归类具有积极意义。
1 项目介绍
1.1 赛题描述
Query(即搜索词)之间的相关性是评估两个Query所表述主题的匹配程度,即判断Query-A和Query-B是否发生转义,以及转义的程度也是自然语言处理中的的重要论题也是各个搜索引擎中需要计算的问题。Query的主题是指Query的专注点,判定两个查询词之间的相关性是一项重要的任务,常用于长尾Query的搜索质量优化场景,本任务数据集就是在这样的背景下产生的。数据集来源于中文医疗信息评测基准CBLUE[1],由阿里巴巴夸克医疗事业部提供。
1.2 赛题说明
日常生活中,如果我们在搜索引擎中输入一次查询,如图 1,搜索引擎常常会自动推荐很多相似的搜索查询推荐。此时即对于一个你输入的 Title,搜索引擎自动为你推荐了一些相关的 Query供你进行选择,用户可以直接点击搜索引擎推荐的查询链接,从而提高用户搜索体验,也能提高搜索引擎的准确性。本赛题中我们需要完成的任务即与这个过程相关。

图 1 阿里夸克App搜索示意图,搜索query为“小孩子打呼噜”
在本赛题中,我们将Query和Title的相关度共分为3档(0-2),0分为相关性最差,2分表示相关性最好。
- 2分:表示A与B等价,表述完全一致
- 1分:B为A的语义子集,B指代范围小于A
- 0分:B为A的语义父集,B指代范围大于A;或者A与B语义毫无关联
2分:Query-A和Query-B主题等价,表述一致,例如表 1;
表 1 2分医学检索词相关性示例
| Query-A |
Query-B |
解释 |
| 小孩子打呼噜是什么原因引起的 |
小孩子打呼噜什么原因 |
|
| 双眼皮怎么遗传 |
双眼皮遗传规律 |
|
| 黄体 |
女性黄体 |
|
| 点痣 |
点痣祛痣 |
1分:B为A的语义子集,B指代范围小于A,例如表 2
表 2 1分医学检索词相关性示例
| Query-A |
Query-B |
解释 |
| 双眼皮遗传规律 |
内双眼皮遗传 |
|
| 尿酸高手脚酸痛 |
尿酸高 脚疼 |
|
| 海绵状血管瘤 |
多发性海绵状血管瘤 |
|
| 足藓 |
足藓如何治疗 |
|
| 室管膜囊肿与蛛网膜 |
左侧极蛛网膜囊肿 |
室管膜囊肿与蛛网膜为不同部位,但B为蛛网膜的一部分,子集。 |
| 板蓝根 |
好医生板蓝根 |
|
| 怀孕血糖高对胎儿有什么影响 |
怀孕初期血糖高对胎儿的影响 |
|
| 什么感冒药效果好 |
什么感冒药起效快 |
效果好有程度及快慢之分,故B为子集 |
| 搭桥手术和支架的区别 |
什么是支架和搭桥 |
A表述:搭桥的概念,支架的概念,二者的区别。B表述:搭桥的概念,支架的概念。B表述了A的一部分,故子集。 |
0分:第一种情况: B为A的语义父集,B指代范围大于A,例如表 3;
表 3 0分医学检索词B为A的语义父集相关性示例
| Query-A |
Query-B |
解释 |
| 双眼皮遗传规律 |
单眼皮与双眼皮遗传 |
|
| 小孩子打呼噜什么原因 |
孩子打呼噜 |
|
| 牛蒡可以煮着吃 |
牛蒡如何吃 |
|
| 死了的大闸蟹能吃吗 |
死了的螃蟹能吃么 |
|
| 拔智齿后悔死了 |
拔了智齿 |
B是A必要前提条件,没有B的发生就没有A |
| 光子嫩肤后注意事项 |
光子嫩肤的注意事项 |
|
| 白血病血常规有啥异常 |
白血病血检有哪些异常 |
第二种情况:A与B语义毫无关联,例如表 4;
表 4 0分医学检索词无关联相关性示例
| Query-A |
Query-B |
解释 |
| 脑梗最怕的四种食物 |
脑梗患者吃什么好 |
|
| 牛蒡可以煮着吃 |
牛蒡有副作用吗 |

最低0.47元/天 解锁文章
1692

被折叠的 条评论
为什么被折叠?



