自然语言处理（NLP）入门——预训练模型

最新推荐文章于 2024-09-26 14:28:23 发布

程序汪赵可乐

最新推荐文章于 2024-09-26 14:28:23 发布

阅读量1.8k

点赞数 1

分类专栏： nlp 文章标签： pytorch python 人工智能

本文链接：https://blog.csdn.net/weixin_37935970/article/details/123833435

版权

nlp 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

ELMo和GPT认识

ELMO模型
- 本质: Embeddings from Language Models.
- 解决的问题: 多义词的问题
结构图

结构:
- 最下层是embedding层
- 中间是双向的LSTM
- 最上层是词向量表征 2L+1 L —> 层数
ELMo的预训练过程
- 第一个阶段: 预训练语言模型
- 第二个阶段: 根据下游任务, 去动态调整word embedding的向量表示,然后将去融入到之前的向量中, 就完成了动态调整的过程
- 每层词向量表示的意义
  - 第一层: 静态词向量
  - 第二层(第一层LSTM): 表示句法信息更多一点
  - 第三层(第二层LSTM): 表示语义信息更多一点.
ELMo的待改进点:
- 没有选取Transformer进行特征提取, 效果没有bert好.
- 特征融合的时候没有想bert一体化的效果好, LSTM双层的融合过程, 效果不太好.
GPT模型
- 本质: Transformer中的decoder部分, 然后去除了中间的attention层, 然后层数增加到了12层
- 应用: 更擅长与自然语言的文本生成任务
- 原理:
  - mask的使用时机: 在进行完QK乘积之后, 在softmax之前进行使用, 使用方式和Transformer中的一样
- 预训练任务:
  - 第一阶段: 无监督的语言模型
  - 第二个阶段: 有监督的训练过程
GPT2模型
- 文本处理的长度是1024
- 生成过程也是自回归的模式
- 最后的输出值的时候做了一些策略调整
  - 1: 使用贪心算法获取最优可能值
  - 1. 在此技术上进行调优, 进行排序输出
    2. 折中办法是将排序之后的数值, 在去topk范围进行抽取, 最后输出.,
BERT, GPT, ELMo各自的优点和缺点
- ELMo
  - 优点:根据上下文动态调整word embedding, 可以解决多义词的问题
  - 缺点: 使用向量拼接的方式融合上下文特征的能力弱于Transformer.
- GPT
  - 优点:GPT使用了Transformer提取特征, 使得模型能力大幅提升
  - 缺点:GPT只使用了单向Decoder, 无法融合未来的信息
- Bert
  - 优点:
  - 缺点:
HMM模型
- 马尔科夫链: 状态空间从一种转态转化到另一种转态随机过程
- 无记忆性: 下一个转态的概率分布只由当前的转态决定.
HMM模型中的两个重要假设
- 齐次马尔科夫链假设:
  - 任意时刻的隐含转态只由前一时刻的隐含转态决定
- 观测独立性假设
  - 任意时刻的观测转态只由当前时刻的隐含转态决定
HMM和CRF
- 作用: 解决文本序列标注任务
- 差异:
  - HMM中有假设, 而CRF中没有, 要求性能高的场景: HMM 效率高
  - 要求准确率高的场景: CRF.