大模型学习日记之预训练语言模型

本文介绍了预训练语言模型的发展历程,从Word2Vec的词向量方法到基于Transformer的BERT和GPT,探讨了它们在解决语言理解问题中的优势,特别是BERT如何通过masking技术进行双向学习。此外,文章还提到了RoBERTa和ELECTRA的改进以及相关论文资源链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

预训练语言模型


1. 语言模型

  • 主要任务:给定一句话,预测接下来出现的词。
  • 代表性语言模型
    • Word2Vec:基于词向量
    • Pre-trained RNN:基于RNN
    • GPT & BERT:基于Transformer

2. 预训练语言模型(PLM)

  • 两种范式

    • Feature-based approches

      Word2Vec

    • Fine-tuning approaches

      BERT

  • GPT

    • 一种强大的生成式语言模型
    • 优点:
      • 数据量大
      • 使用Transfomer的decoder构建了一种强大的深度神经网络
  • BERT

    • 作用:解决语言模型的双向理解问题。
    • 核心思想:mask一些词,再预测出这些被mask的词。
    • BERT会mask15%的词,mask过多则得不到足够的文本信息,mask过少则会缺少监督信息。
    • 改进:
      • RoBERTa
      • ELECTRA
  • 预训练语言模型论文列表

    http://github.com/thunlp/PLMpapers

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值