预训练 (Pretraining)

AGI通用人工智能之禅

已于 2024-06-10 01:09:53 修改

阅读量173

点赞数 6

分类专栏：一切皆是映射:AI人工智能与大数据原理与应用实战一切皆是映射:人工智能数学基础原理与应用实战大数据AI人工智能文章标签：计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA

于 2024-06-10 00:35:16 首次发布

本文链接：https://blog.csdn.net/2301_76268839/article/details/139568567

版权

一切皆是映射:人工智能数学基础原理与应用实战同时被 3 个专栏收录

2243 篇文章 16 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大数据AI人工智能

1581 篇文章 27 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

一切皆是映射:AI人工智能与大数据原理与应用实战

714 篇文章 3 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

预训练在深度学习中是提升模型性能的关键，尤其在NLP和CV领域。通过自监督学习，如BERT和GPT，模型在大规模无标注数据上学习通用特征，再在特定任务上微调。预训练涉及自监督学习、迁移学习和微调，包括Masked Language Model和Next Sentence Prediction等任务，广泛应用于机器翻译、文本分类、命名实体识别等领域。未来预训练技术将面临模型规模、模型偏见、计算资源和领域适应性的挑战。

摘要由CSDN通过智能技术生成

预训练 (Pretraining) 1

1.背景介绍

预训练（Pretraining）是深度学习中一种重要的训练范式，特别是在自然语言处理（NLP）和计算机视觉（CV）领域得到了广泛应用。预训练的核心思想是在大规模无标注数据上先进行自监督学习，学习数据的一般性特征表示，然后再在具体的下游任务上进行微调（Fine-tuning），从而提升模型的性能和泛化能力。

预训练的思想最早由 Geoffrey Hinton 等人在 2006 年的论文 “A Fast Learning Algorithm for Deep Belief Nets” 中提出，他们使用无监督的玻尔兹曼机（RBM）分层预训练深度神经网络，取得了很好的效果。此后，预训练技术不断发展，并在 NLP 和 CV 等领域取得了突破性进展，代表工作包括 word2vec、ELMo、GPT、BERT 等。