1. BERT
1. How to use BERT
都需要一些labled data
Case 3: NLI (Natural Language Inference)
实做上,bert不能吃无限长度的输入,大概最长512左右。
2. Training BERT is challenging
3. Why does BERT work?
前5个果是水果的果,后5个是苹果电脑的果,计算它们embedding的cosine similarity
用随机的英文单词代替DNA编码
→ BERT 为什么会好?还有很多研究的空间
4. Multi-BERT
2. GPT
Predit Next Token
3. 其他self-supervised learning内容