nlp阅读理解比赛经验贴

(一)比赛类型
多篇章阅读理解
篇章长度长
问题有多跳类型
没有yes no类型
(一)数据预处理
1、blue、rouge、f1、tfidf、bm25进行相似度度量
2、采用前1000字、与问题最相似的几句话的策略,效果都不好,只能达到76%的覆盖率
3、用相似度进行排序,将1-3个句子的前一句后两句,4-6个句子前一句后一句,7-10个句子本身,覆盖率提升到95%,平均长度1600,后期优化到了95%和1300
4、没有做可以做的就是用模型度量句子对的相似性
(三)单篇张框架
直接将抽取出来的1300长度的段落material放入模型进行训练
1、我们的模型优点在于
(1)找到了较好的网络模型(BertQA-Attention-on-Steroids):后面有问题和content之间的attention机制,相当于在传统的基于bert的阅读理解模型基础上,加上了对问题和篇章之间关键词的重复的感知,很适合我们这个比赛的数据
(2)找到了很好的预训练模型:robota和robota-large
2、我们方法的缺点在于:
(1)没有做xlnet
(2)模型的结果处理,经典bert需要512长度的content,当content长度超过512,就用64长度的划窗切分,形成几个模型结果,在模型出现结果后,选择probability最大的结果作为最后的结果,但其实每个probability的结果不在同一个维度无法比较
(3࿰

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值