(一)比赛类型
多篇章阅读理解
篇章长度长
问题有多跳类型
没有yes no类型
(一)数据预处理
1、blue、rouge、f1、tfidf、bm25进行相似度度量
2、采用前1000字、与问题最相似的几句话的策略,效果都不好,只能达到76%的覆盖率
3、用相似度进行排序,将1-3个句子的前一句后两句,4-6个句子前一句后一句,7-10个句子本身,覆盖率提升到95%,平均长度1600,后期优化到了95%和1300
4、没有做可以做的就是用模型度量句子对的相似性
(三)单篇张框架
直接将抽取出来的1300长度的段落material放入模型进行训练
1、我们的模型优点在于
(1)找到了较好的网络模型(BertQA-Attention-on-Steroids):后面有问题和content之间的attention机制,相当于在传统的基于bert的阅读理解模型基础上,加上了对问题和篇章之间关键词的重复的感知,很适合我们这个比赛的数据
(2)找到了很好的预训练模型:robota和robota-large
2、我们方法的缺点在于:
(1)没有做xlnet
(2)模型的结果处理,经典bert需要512长度的content,当content长度超过512,就用64长度的划窗切分,形成几个模型结果,在模型出现结果后,选择probability最大的结果作为最后的结果,但其实每个probability的结果不在同一个维度无法比较
(3
nlp阅读理解比赛经验贴
最新推荐文章于 2021-09-26 10:49:42 发布