第15章: Question Generation综合案例源码、测试及调试
1,从Text到Multiple choice question数学原理、使用的Transformer知识、架构设计
1,自动生成错误的问题选项
2,使用GPT2自动生成对错二分类的问题
3,使用Transformer生成多选题目
4,使用Transformer自动生成完形填空题目
5,使用Transformer基于特定内容生成问题
6,完整案例调试分析
7,使用fastAPI部署、测试Transformer案例
8,使用TFX部署、测试Transformer案例
第16章:Kaggle BERT比赛CommonLit Readability Prize赛题解析、Baseline代码解析、及比赛常见问题
1,以问题为导向的Kaggle Data Competition分析
2,为何Kaggle上的NLP 80%以上都是文本分类比赛,并必须使用Neural Networks?
3,文本复杂度衡量不同类型实现技术分析
4,比赛的Training数据集分析:id、url_legal、license、excerpt、target、standard_error
5,比赛的评价指标分析
6,Readability:NLP Classification or Regression based on neural networks
7,Kaggle比赛通用步骤:Data - Cleaning - Store - GridSearch - Model - Prediction
8,比赛外部数据集分析
9,比赛使用的硬件条件分析
10,Training Set、Validation Set、Test Set
11,比赛的双层Pretraining技术解析
12,Pretraining的三大类型解析:ITPT、IDPT、CDPT
13,传统的Statistics Method建模 + 树模型
14,Statistical features构建源码分析
15,融合统计信息并使用Regression模型解析
16,使用RoBERTa模型解析
17,使用AutoModelForMaskedLM
18,TrainConfig解析
19,模型的Tokenizer解析
20,模型加载
21,对RoBERTa进行pretrain源码解析解决原声BERT和比赛数据领域Discrepancy的问题
22,Model weights保存时的json和bin解析
23,使用Kaggle Notebook加载第一次pretrain后的模型
24,验证集:K-Fold、Sampling等分析
25,Early stoping分析
26,把Examples转为Features
27,DatasetRetriever源码实现详解
28,Input IDs、Attention Mask、Token type IDs
28,CommonLitModel源码之regressor解析
30,Comm