第16章：Kaggle BERT比赛CommonLit Readability Prize赛题解析、Baseline代码解析、及比赛常见问题

最新推荐文章于 2022-12-04 12:00:50 发布

StarSpaceNLP667

最新推荐文章于 2022-12-04 12:00:50 发布

阅读量324

点赞数

分类专栏： Transformer NLP StarSpace 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/StarSpaceNLP667/article/details/121549954

版权

本文详细解析了Kaggle的CommonLit Readability Prize比赛，从比赛背景、数据集分析到评价指标，探讨了NLP任务中使用Transformer模型的普遍性。内容涵盖数据预处理、模型训练、评估策略、RoBERTa等预训练模型的运用，以及比赛中遇到的问题和解决方案。

摘要由CSDN通过智能技术生成

1，以问题为导向的Kaggle Data Competition分析

2，为何Kaggle上的NLP 80%以上都是文本分类比赛，并必须使用Neural Networks？

3，文本复杂度衡量不同类型实现技术分析

4，比赛的Training数据集分析：id、url_legal、license、excerpt、target、standard_error

5，比赛的评价指标分析

6，Readability：NLP Classification or Regression based on neural networks

7，Kaggle比赛通用步骤：Data - Cleaning - Store - GridSearch - Model - Prediction

8，比赛外部数据集分析

9，比赛使用的硬件条件分析

10，Training Set、Validation Set、Test Set

11，比赛的双层Pretraining技术解析

12，Pretraining的三大类型解析：ITPT、IDPT、CDPT

13，传统的Statistics Method建模 + 树模型

14，Statistical features构建源码分析

15，融合统计信息并使用Regression模型解析

16，使用RoBERTa模型解析

17，使用AutoModelForMaskedLM

18，TrainConfig解析

19，模型的Tokenizer解析

20，模型加载

21

最低0.47元/天解锁文章

StarSpaceNLP667

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。