Top9竞赛总结-NLP语义相似度第三届拍拍贷“魔镜杯”大赛

Joe周鸟

于 2019-01-24 11:51:23 发布

阅读量2.6k

点赞数

分类专栏：竞赛文章

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012891055/article/details/86624033

版权

本文是作者殷剑宏关于第三届拍拍贷“魔镜杯”大赛的参赛总结，分享了NLP语义相似度任务的介绍、数据集分析、模型构建、数据增强和融合策略。比赛中，作者采用了深度学习模型，包括LSTM、CNN和交互层，通过数据增强和模型融合提升性能。此外，文中还探讨了个人经验和技巧，如两次训练、10Fold CV等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

因为微信外链限制，读者可以在公众号AI圈终身学习(ID:AIHomie)首页回复“2018语义相似度”，或者复制文中的链接在浏览器中打开外链。

目录

语义相似度任务介绍
数据介绍
模型介绍
数据增强、Finetune与模型融合
个人经验
Trick
总结

作者介绍

殷剑宏，江湖人称Yin叔，业余做各种数据竞赛，喜欢NLP和交通类的竞赛。以下是部分竞赛参赛经历：

2016年 DataCastle 微博热度预测竞赛第二名
2017年 DataCastle&成都市政府智慧中国杯交通算法赛第二名
2017年 Biendata&中国人工智能学会知乎看山杯机器学习挑战赛第七名
2017年 Biendata&中国人工智能学会摩拜杯算法挑战赛第一名
2018年 Biendata神州优车UAI数据大赛第二名
2018年 Datafountain云移杯景区口碑评价分值预测第一名
2018年拍拍贷第三届魔镜杯大赛第九名
2018年 DataCastle 华录杯公交线路准点预测第一名
2018年 DataCastle 达观杯文本智能处理挑战赛第五名

一、语义相似度任务介绍

第三届“魔镜杯”由拍拍贷智慧金融研究院主办，总奖池高达10万美金，是一个问题相似度问题。“问题相似度计算”这个问题，顾名思义，就是判断两个问题是否表达相同的含义。

比如用户询问：“彩虹年化多少？”就和知识库的“彩虹产品收益率”相似，从而app可以触发相应的业务。

语义相似度是NLP领域很重要的一个任务，有非常大的应用价值。目前它常用于：

通过标注数据找寻新的相似未标注数据，从而扩充训练集(和本题无关)
智能客服，计算客户提出的问题与知识库中问题的相似度(本赛题)

不论是在这个比赛之前，还是这个比赛之后，国内外竞赛平台都有很多类似题目，比如：

Kaggle Quora
天池 CIKM
蚂蚁金服

笔者在2018年也投入了很多精力研究这个任务，因此有一些心得体会。为了巩固自身知识体系，并且可以帮助一些对NLP语义相似度比赛或任务感兴趣的朋友，我在DataCastle产出了自己的视频、PPT和开源代码。如果本文看得不过瘾的朋友可以作为额外的知识补充。

我比较高兴的是，在之后的比赛中，有选手也参考这个课程取得了不错的成绩。

感兴趣的同学可以看看，获取方式已经在文首给出。

二、数据介绍

2.1 任务定义

魔镜杯比赛的任务非常明确，就是给定一个句子q1和另一个句子q2，系统自动判断这两个句子的含义：

相同(label=1)
不同(label=0)。

2.2 数据集

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。