预训练模型
One-Hot
apple与cat点积为0
cat与dog点积为0
One-Hot方式没有学到词的内在表示
Word Embedding
在word embedding过程当中,这四个bank会被压缩成同一个向量,但是这四个向量的含义却不一样。
Contextualized Word Embedding
词嵌入过程当中,考录语境上下文。
Embedding from Language Model(ELMO)
通过RNN上下文,高烧退了和臣退了当中的“退了”这个词会被压缩成不同向量。
考虑到逆向,多层RNN拼接。
不同RNN层产生的向量如何组合,根据不同的任务自动学习组合参数。
Bidirectional Encoder Representations from Transformers(BERT)
BERT,使用字"潮",“水"比使用词"潮水”,应该效果更好。
BERT训练方法1,以15%的概率挖空一个词,通过Linear Multi-class Classifier预测改词。
BERT训练方法2,预测两个句子是不是上下文关系。
BERT使用案例:情感分析、文档分类
n到n任务,词性标注,命名实体识别。
输入两个句子,输出一个分类,自然语言推理。
问答,提取问题在文档中的答案。
跟EMLO一样,BERT分为24层,根据不同的任务,自动训练每一层的组合权重。
Enhanced Representation through Knowledge Integration(ERNIE)
针对于中文设计,在Bert Masked过程当中,随机盖住一些字,但是在中文环境中,应该为随机盖住一些词。
Generative Pre-Training(GPT)
参数特别巨大。
NERT为Transformer的Encoder,GPT为Transformer的Decoder。
GPT2因为参数比较多,在使用过程中可以达到Zero-shot Learning。
参考:
https://www.bilibili.com/video/av56235038?from=search&seid=16286882987918084780