浅谈大模型训练

2.1训练大语言模型的数据
训练过程,三个阶段:
1. 预训练(Pre-training)
2. 监督微调(SFT)
3. 强化学习(RLHF)

预训练:各种类型的知识,包括网页,书籍,论文期刊;构建模型的基础能力;
SFT:通过标注人员设计问答,编写正确答案,将例题投喂给模型,提升泛化能力;
RLHF:训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进行打分,排序,让模型知道“怎么说更好”。

若将模型微调后部署应用于特定的场景形成行业大模型(如工业,金融,医疗等),
则需要满足该场景专业需求的特定领域知识做预训练对齐,
需要具备一定的专业深度。

2.2训练多模态模型的数据
大语言模型迅速发展的同时,Transformer 开始迁移到图像,视频和语音等其他模态数据领域,并与大语言模型融合,
形成多模态大模型。

训练阶段需要大量:
1. 图像-文本对
2. 视频-文本对
等 有标注的数据集进行训练


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值