ELMo和GPT认识
-
ELMO模型
- 本质: Embeddings from Language Models.
- 解决的问题: 多义词的问题
结构图
结构:
- 最下层是embedding层
- 中间是双向的LSTM
- 最上层是词向量表征 2L+1 L —> 层数
ELMo的预训练过程
- 第一个阶段: 预训练语言模型
- 第二个阶段: 根据下游任务, 去动态调整word embedding的向量表示,然后将去融入到之前的向量中, 就完成了动态调整的过程
- 每层词向量表示的意义
- 第一层: 静态词向量
- 第二层(第一层LSTM): 表示句法信息更多一点
- 第三层(第二层LSTM): 表示语义信息更多一点.
ELMo的待改进点:
- 没有选取Transformer进行特征提取, 效果没有bert好.
- 特征融合的时候没有想bert一体化的效果好, LSTM双层的融合过程, 效果不太好.
-
GPT模型
- 本质: Transformer中的decoder部分, 然后去除了中间的attention层, 然后层数增加到了12层
- 应用: 更擅长与自然语言的文本生成任务
- 原理:
- mask的使用时机: 在进行完QK乘积之后, 在softmax之前进行使用, 使用方式和Transformer中的一样
- 预训练任务:
- 第一阶段: 无监督的语言模型
- 第二个阶段: 有监督的训练过程
-
GPT2模型
- 文本处理的长度是1024
- 生成过程也是自回归的模式
- 最后的输出值的时候做了一些策略调整
- 1: 使用贪心算法获取最优可能值
-
- 在此技术上进行调优, 进行排序输出
- 折中办法是将排序之后的数值, 在去topk范围进行抽取, 最后输出.,
-
BERT, GPT, ELMo各自的优点和缺点
- ELMo
- 优点:根据上下文动态调整word embedding, 可以解决多义词的问题
- 缺点: 使用向量拼接的方式融合上下文特征的能力弱于Transformer.
- GPT
- 优点:GPT使用了Transformer提取特征, 使得模型能力大幅提升
- 缺点:GPT只使用了单向Decoder, 无法融合未来的信息
- Bert
- 优点:
- 缺点:
- ELMo
-
HMM模型
- 马尔科夫链: 状态空间从一种转态转化到另一种转态随机过程
- 无记忆性: 下一个转态的概率分布只由当前的转态决定.
-
HMM模型中的两个重要假设
- 齐次马尔科夫链假设:
- 任意时刻的隐含转态只由前一时刻的隐含转态决定
- 观测独立性假设
- 任意时刻的观测转态只由当前时刻的隐含转态决定
- 齐次马尔科夫链假设:
-
HMM和CRF
- 作用: 解决文本序列标注任务
- 差异:
- HMM中有假设, 而CRF中没有, 要求性能高的场景: HMM 效率高
- 要求准确率高的场景: CRF.
第一定律:机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手不管,除非这违反了机器人学第零定律。
第二定律:机器人必须服从人给予它的命令,当该命令与第零定律或者第一定律冲突时例外。
第三定律:机器人在不违反第一、第二定律的情况下要尽可能保护自己的生存