大模型初见与简单实践

最新推荐文章于 2025-05-05 23:19:47 发布

HS_Henry

最新推荐文章于 2025-05-05 23:19:47 发布

阅读量1.3k

点赞数 24

分类专栏：区块链与人工智能文章标签： LLM 大模型简介

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chl87783255/article/details/140556900

版权

大模型简介

大模型是单个具有庞大参数数量的神经网络模型，不是由多个小模型组成的。

大型神经网络模型通过庞大的规模和复杂的网络架构，能够在单一框架内学习和处理极其广泛和复杂的数据和任务，捕捉和学习数据中的深层次模式和关系。

参数规模：千亿-万亿数量的参数

训练数据：涉及多领域的庞大数据量，数据多样化，以保证模型良好的泛化能力

计算资源：需要庞大的计算资源训练资源，需要多个高性能的GPU或TPU进行并行训练，需要持续数周或数月。

大模型与单独模型的差异

大模型与单独模型的差异表现在规模、复杂性、训练数据量、计算资源需求、应用范围等。

模型规模：大模型已到达千亿参数规模
架构复杂：大模型采用更加复杂的架构，如transformer架构，有效处理序列数据，捕捉长距离依赖关系。
数据需求：为避免过拟合，具有更好的泛化能力，大模型需要十亿到万亿规模的数据。
计算资源：大模型需要巨大的资源，训练周期以周或月为单位
泛化能力：大模型由于庞大的参数和复杂的数据处理能力，具有更好的泛化能力。
多任务学习：大模型不需要针对特定任务重新学习或微调，以前的单独模型则需要为每个任务单独训练模型。
可解释性：大模型内部的决策过程难以解释和理解。小模型则容易分析和理解。

大模型和小模型的训练过程的步骤基本一致。

学习策略

基础知识

大模型以机器学习、深度学习为基础，这些在google tensorflow学习者教程中都有。

嵌入的概念：将资源(如文本、音视频)转换数字形式，即某固定长度的向量。

大模型的历史和演进

2017年Transformer模型，大模型发展的重大里程碑，引入自注意力机制。在处理序列化数据时，为每个元素分配不同的注意力权重。处理长距离依赖关系时表现出色，极大提高模型处理自然语言处理任务(NLP)的能力。

2018年google BERT模型，基于transformer，引入双向训练概念，模型在学习一个词时，同时考虑前边和后边的上下文信息。当时NLP处理很出色。

GPT由openai开发，是一系列基于transformer的大语言模型。采用预训练加微调的模式。首先是在大规模语料集上进行预训练，学习语言的通用模式和结构，然后在特定任务上进行微调。

Llama由meta开发

Phi由微软开发

演进过程

自注意力机制 transformer
双向上下文理解 bert
预训练加微调 gpt
层次化结构都是通过层次化的设计，有效支持神经网络结构参数规模的增加。

GPT工作原理<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。