1,以问题为导向的Kaggle Data Competition分析
2,为何Kaggle上的NLP 80%以上都是文本分类比赛,并必须使用Neural Networks?
3,文本复杂度衡量不同类型实现技术分析
4,比赛的Training数据集分析:id、url_legal、license、excerpt、target、standard_error
5,比赛的评价指标分析
6,Readability:NLP Classification or Regression based on neural networks
7,Kaggle比赛通用步骤:Data - Cleaning - Store - GridSearch - Model - Prediction
8,比赛外部数据集分析
9,比赛使用的硬件条件分析
10,Training Set、Validation Set、Test Set
11,比赛的双层Pretraining技术解析
12,Pretraining的三大类型解析:ITPT、IDPT、CDPT
13,传统的Statistics Method建模 + 树模型
14,Statistical features构建源码分析
15,融合统计信息并使用Regression模型解析
16,使用RoBERTa模型解析
17,使用AutoModelForMaskedLM
18,TrainConfig解析
19,模型的Tokenizer解析
20,模型加载
21