背景
比赛官网:新冠疫情相似句对判定大赛 (https://www.datafountain.cn/competitions/350)
类型: NLP-文本分类
赛题任务:
比赛整理近万条真实语境下疫情相关的患者提问句对,要求选手通过自然语言处理技术识别相似的患者问题。0为不相似,1为相似
解决方案
解读
Top1解决方案由zzy99提供,里面的答辩ppt,从数据市例到技巧尝试,还有技术总结,讲解流程适合小白理解整个赛题思路,不在此重复大佬的内容。
重点Trick
对抗训练
解决方案使用了国内NLP著名博主苏剑林的对抗训练代码,详见“对抗训练浅谈:意义、方法和思考(附Keras实现)”,我认为在计算机视觉的比赛也能使用。
sigmoid加权融合
这是一个挺有意思的加权融合方法,直接看看代码,我加入了对应注释
#定义sigmoid的函数
de