过年刷【千言数据集:文本相似度】比赛

1.比赛信息

“千言数据集:文本相似度” 是网易易智在 CCF 和百度联合举办的行业测评任务,这个榜单在2021年出提出。刚好过年有时间刷一下这个任务,由于时间有限,且已经有相当多的提交,最后在假期结束取得15/2000的成绩。
在这里插入图片描述
代码地址:https://github.com/xxyliuyang/qianyan_similarity
依赖: allennlp2.0.1、transfomers4.1.0、torch==1.7.1

2. 数据集介绍

具体数据来源查看官网数据介绍,这里介绍三个数据比较大的问题:千言数据集:文本相似度述

  • 问题一:领域数据:BQ Corpus是金融领域相关的数据。
  • 问题二:文本质量: PAWS-X的输入文本质量不高,存在很多中英混合句子,英文大部分是英文实体词汇。
  • 问题三:label质量:观察部分数据,标签存在标注错误的情况。

3. 模型细节

3.1 数据增强:

交换句子度,将训练数据翻倍。

3.2 模型:

bert构建句子对模型,使用[CLS]的输出的向量做二分类。

3.3 训练:

使用R-drop正则方法,其训练逻辑类似于对抗训练。

3.4 模型融合:

使用robert,albet,macbert分别训练,然后将输出的概率求平均。

其他:可以提高的点 或者 没有用尝试。

还有很多方法没有尝试,读者可以自行尝试,进入前十还是不难。

1.领域数据进一步预训练。

条件是可以获取或者爬取相关领域的文本。

2.半监督训练(self-training的思想):

条件是获取相关数据。

3. simCSE的训练:

尝试simCSE的训练,但是没有收益,猜测是因为simCSE提高句子embedding的方法,然而这个任务是句子对的任务,两个任务的出发点有区别。如果有更好的解释,欢迎评论。

4.stacking模型融合:

更好的融合模型可以提高效果

参考文献
[1] R-Drop
[2] simCSE

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值