nlp阅读理解比赛经验贴

最新推荐文章于 2021-09-26 10:49:42 发布

scarlette47

最新推荐文章于 2021-09-26 10:49:42 发布

阅读量1.5k

点赞数

分类专栏：机器学习 deep learning 文本

本文链接：https://blog.csdn.net/u011037837/article/details/102664428

版权

（一）比赛类型
多篇章阅读理解
篇章长度长
问题有多跳类型
没有yes no类型
（一）数据预处理
1、blue、rouge、f1、tfidf、bm25进行相似度度量
2、采用前1000字、与问题最相似的几句话的策略，效果都不好，只能达到76%的覆盖率
3、用相似度进行排序，将1-3个句子的前一句后两句，4-6个句子前一句后一句，7-10个句子本身，覆盖率提升到95%，平均长度1600，后期优化到了95%和1300
4、没有做可以做的就是用模型度量句子对的相似性
（三）单篇张框架
直接将抽取出来的1300长度的段落material放入模型进行训练
1、我们的模型优点在于
（1）找到了较好的网络模型（BertQA-Attention-on-Steroids）：后面有问题和content之间的attention机制，相当于在传统的基于bert的阅读理解模型基础上，加上了对问题和篇章之间关键词的重复的感知，很适合我们这个比赛的数据
（2）找到了很好的预训练模型：robota和robota-large
2、我们方法的缺点在于：
（1）没有做xlnet
（2）模型的结果处理，经典bert需要512长度的content，当content长度超过512，就用64长度的划窗切分，形成几个模型结果，在模型出现结果后，选择probability最大的结果作为最后的结果，但其实每个probability的结果不在同一个维度无法比较
（3࿰

最低0.47元/天解锁文章

scarlette47

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
nlp阅读理解比赛经验贴

（一）比赛类型多篇章阅读理解篇章长度长问题有多跳类型没有yes no类型（一）数据预处理1、blue、rouge、f1、tfidf、bm25进行相似度度量2、采用前1000字、与问题最相似的几句话的策略，效果都不好，只能达到76%的覆盖率3、用相似度进行排序，将1-3个句子的前一句后两句，4-6个句子前一句后一句，7-10个句子本身，覆盖率提升到95%，平均长度1600，后期优化到...
复制链接

扫一扫