NLP 前置知识3 —— 预训练模型

温酒ss

已于 2022-03-06 21:44:51 修改

阅读量2k

点赞数

文章标签：自然语言处理深度学习机器学习

于 2022-03-06 21:43:00 首次发布

本文链接：https://blog.csdn.net/qq_43123477/article/details/123300506

版权

一. Pre-training & Fine - tuning 机制

1.定义

Pre-training: 在大规模数据集上学习尽可能好的通用表示

Fine-tuning : 利用学习好的通用表示初始化下游任务网络

加速收敛
减少任务相关监督数据的需求

二.预训练模型发展总概

来源：百度NLP

三.预训练模型简介

1. ELMo

Pre-training:

（1）Bi-LSTM （两层/双向(LR, RL)）

(2) 无监督训练，训练数据1B Word

(3) 只预训练language mode

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

温酒ss

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

NLP预训练模型学习总结

AlphaFinance

08-14

457

Ⅰ 综述以邱锡鹏老师的文章为范本来分析为什么使用预训练模型以及预训练模型如何分类。一、为什么需要预训练模型 Pre-trained Models缩写为PTMs。复旦大学邱锡鹏教授发表的NLP预训练模型综述“Pre-trained Models for Natural Language Processing: A Survey”，于2021年6月23日出版。这篇文章从多个角度分析了当前预训练语言模型，认为预训练模型有三大优势： 预训练模型从大规模语料中学习知识，对下游任务帮助很大。 预训练提供了一种更好

预训练模型

最新发布

m0_56255097的博客

08-19

2977

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

NLP预训练模型

weixin_43758551的博客

07-28

485

训练得到的词向量表征的词语之间的信息其实有限。词向量一个难以解决的问题就是多义词的问题，例如“bank”在英文中有“河岸”和“银行”两种完全不同意思，但是在词向量中确实相同的向量来表征，这显然不合理。 2017年，为了解决这个问题，ELMO模型在“Deep contextualized word representation”被提出。 ELMO的本质思想是：用事先训练好的语言模型学好一个单词的Word Embedding，此时多义词无法区分，不过这没关系。在实际使用Word Embedding的时候，单词特

2023年！自然语言处理（NLP）10 大预训练模型

yinizhilianlove的博客

04-07

6135

来源:（每日干货分享！！编辑: ShuYini校稿: ShuYini时间: 2022-10-23。

预训练模型优缺点

qq_38897423的博客

12-16

1万+

此处预训练模型指分类模型，将预训练模型作为检测模型主干网络优点： 1、开源模型多，可以直接用于目标检测 2、可以快速地得到最终模型，需要的训练数据少缺点： 1、预训练模型大、参数多、模型结构灵活性差、难以改变网络结构，计算量大，限制应用场景 2、分类和检测任务损失函数和类别分布不同，优化空间存在差异 3、尽管微调可以减少不同目标类别分布差异性，差异太大时，微调效果不明显 ...

NLP前置知识1 —— 词向量

qq_43123477的博客

03-05

883

一、词的表示方法独热编码、词袋模型、词向量 1.独热编码(One-Hot Encoding) 1.1 定义方法是把每个词表示为一个长向量，该这个向量的维度是词表大小，向量中只有一个维度的值为1，其余维度为0，这个维度就代表了当前的词。例如：苹果 [0,0,0,1,0,0,0,0,···] 1.2 特点：（1）不能展示词与词之间的关系：词向量间两两正交（2）稀疏性非常强，当词典非常大时，编码出的向量维度也会很大 1.3 适用： 2.词袋模型（Bog-of-Words,BoW）

Paddle预训练模型应用工具PaddleHub

吴建明wujianming_110117

02-11

3426

Paddle预训练模型应用工具PaddleHub • 本文主要介绍如何使用飞桨预训练模型管理工具PaddleHub，快速体验模型以及实现迁移学习。建议使用GPU环境运行相关程序，可以在启动环境时，如下图所示选择“高级版”环境即可。如果没有算力卡资源可以点击链接申请。概述首先提个问题，请问十行Python代码能干什么？有人说可以做个小日历、做个应答机器人等等，用十行代码可以成功训练出深度学习模型，飞桨的PaddleHub可以轻松实现。 PaddleHub是飞桨生态下的预训练模型的管理工具，旨在让飞桨

NLP入门——天池新闻文本分类（6）基于深度学习的文本分类3)

qq_36831845的博客

08-05

506

NLP入门——天池新闻文本分类（5）基于深度学习的文本分类3学习目标AttentionAttention 机制Self-AttentionTransformerMulti-headed attention（多头怪）Encoder-Decoder-AttentionAdd&Norm （残差模块）代码实现细节：Bert预训练模型分类：不同模型的建模：代码实践：bert_path 指的是目录,他要找到对应的config和vocab 学习目标 • 了解Transformer的原理和基于预训练语言模型（Ber

LLMs之Chinese-LLaMA-Alpaca-2：源码解读(run_clm_pt_with_peft.py文件)—模型训练前置工作(参数解析+配置日志)→模型初始化(检测是否存在训练过的chec

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

08-31

1426

LLMs之Chinese-LLaMA-Alpaca-2：源码解读(run_clm_pt_with_peft.py文件)—模型训练前置工作(参数解析+配置日志)→模型初始化(检测是否存在训练过的checkpoint+加载预训练模型和tokenizer)→数据预处理(处理【标记化+分块】+切分txt数据集)→优化模型配置(模型量化+匹配模型vocabulary大小与tokenizer+初始化PEFT模型【LoRA】+CheckPointing等)→模型训练(继续训练+评估指标+自动保存中间训练结果)/模型评

预训练模型是什么

qq_34425255的博客

03-15

4384

你需要搭建一个网络模型来完成一个特定的图像分类的任务。首先，你需要随机初始化参数，然后开始训练网络，不断调整参数，直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当你觉得结果很满意的时候，你就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。这个过程就是 pre-training。之后，你又接收到一个类似的图像分类的任务。这时候，你可以直接使用之前保存下来的模型的参数来作为这一任务的初始化参数，然后在训练的过程中，依据结果不断进行一些修改。

什么是预训练模型

gaoluan6052的博客

02-25

1万+

** 模型预训练： ** 首先，在一个原始任务上预先训练一个初始模型，然后在目标任务上使用该模型，针对目标任务的特性，对该初始模型进行精调，从而达到提高目标任务的目的。在本质上，这是一种迁移学习的方法，在自己的目标任务上使用别人训练好的模型。对于文本语言来说，是有天然的标注特征的存在的，原因就在于文本可以根据之前的输入词语进行预测，而且文本大多是有很多词语，所以就可以构成很大的预训练数据，进而可以自监督(不是无监督，因为词语学习过程是依据之前词语的输出的，所以应该是自监督学习)的预训练。 BERT是一个预

什么是预训练模型？

qq_45104603的博客

03-01

2813

什么是预训练模型？

预训练（Pre-training）

xw555666的博客

02-25

2668

预训练阶段在深度学习和自然语言处理（NLP）、计算机视觉（CV）等领域的模型构建中起着至关重要的作用。通过在大规模无标签数据集上进行预训练，模型可以学到丰富的语言结构、词汇关系、图像特征等通用知识，并将其编码为参数形式。这种预训练得到的模型能够提供高质量的初始化权重，这些权重包含了对世界广泛而深入的理解。总体来说，预训练和应用开发相辅相成，共同推动了AI技术的发展和落地应用。预训练大大提升了模型性能并降低了对大量标注数据的依赖，而应用开发则确保模型能够在实际问题中发挥出最佳效果。

【ChatGPT】什么是预训练模型？

AI天才研究院

04-09

2万+

预训练模型是一种强大的工具，可以提高模型的性能和泛化能力。在使用预训练模型时，需要根据任务的特点进行微调，并理解模型的架构和任务，以更好地利用模型的优势。同时，需要注意数据的质量和数量，以及模型的参数选择和优化。最终，预训练模型将会成为人工智能领域的重要工具，为人类带来更多的便利和福利。

预训练模型详细介绍

CSDN 精品推荐

08-09

2981

预训练模型的思想是利用大规模数据的信息来初始化模型参数，然后通过微调或迁移学习，将模型适应到特定的目标任务上。预训练模型的优势在于它们能够捕捉大规模数据中的通用特征，从而提高模型在特定任务上的性能，尤其是在数据有限的情况下。预训练模型的原理是利用大规模数据集进行初始训练，从而在无监督或自监督的方式下，捕捉数据中的通用特征。预训练模型的常见做法是在大规模的数据集上进行无监督或自监督的预训练。总之，预训练模型在多个领域都具有广泛的应用，可以帮助加速模型的训练、提高性能，并且在数据量不足的情况下仍然表现出色。

深度学习进阶篇-预训练模型[1]：预训练分词Subword、ELMo、Transformer模型原理；结构；技巧以及应用详解

丨汀、的博客

05-24

3691

机器无法理解文本。当我们将句子序列送入模型时，模型仅仅能看到一串字节，它无法知道一个词从哪里开始，到哪里结束，所以也不知道一个词是怎么组成的。所以，为了帮助机器理解文本，我们需要将文本分成一个个小片段然后将这些片段表示为一个向量作为模型的输入同时，我们需要将一个个小片段（token) 表示为向量，作为词嵌入矩阵，通过在语料库上训练来优化token的表示，使其蕴含更多有用的信息，用于之后的任务。