大模型学习笔记2【大模型】

WHY-233

已于 2024-06-28 17:17:57 修改

阅读量287

点赞数 4

文章标签：学习笔记人工智能

于 2024-06-28 17:13:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GS2333/article/details/140047665

版权

文章目录

学习内容
1.选择基座模型
2.验证
3.微调
4.训练数据
5.Instruction Tuning
6.训练
7.测试
8.部署

学习内容

介绍流程

1.选择基座模型

基座模型对结果比较重要，一般选择的流程：首先关注整体性能（打榜），其次关注所需任务的评分，一般选用Chat模型，节省训练对话所需的语料和成本。
目前中文表现较好的是Yi,ChatGLM
目前中文表现较好的是LLaMA

2.验证

用手上的数据、任务的数据验证一下哪个模型最好
如果手上没有数据，可以寻找相关的任务/领域通用数据
如果效果比较好的话，直接用Prompt就可以上线了

3.微调

微调数据：一般1000-10000条就够了
个人经验1：一百多条通过改写问题模板+改写答案也很好用
个人经验2：可以计算一下参数量，LoRA参数量 * 2bit信息是理论最大容量，可以根据问题的困难程度控制在LoRA参数量的10%及以下。

4.训练数据

优秀的数据对于效果至关重要！！！！宁缺毋滥！！
数据分为：全自动、人工、半人工。
其中自动和半人工需要人类验证。

5.Instruction Tuning

对于特定任务的数据进行训练
如果发生遗忘的话，添加通用的Instruction。可以设置不同的训练权重和比例。
在Pretrain阶段进行Instruction

6.训练

别整花活，死用LoRA就行了
从较小的模型开始训练，如果验证了结果好，往大的训练

7.测试

8.部署

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大模型学习笔记2【大模型】

文章目录学习内容1.选择基座模型2.验证3.微调4.训练数据5.Instruction Tuning6.训练7.测试8.部署学习内容介绍流程1.选择基座模型基座模型对结果比较重要，一般选择的流程：首先关注整体性能（打榜），其次关注所需任务的评分，一般选用Chat模型，节省训练对话所需的语料和成本。目前中文表现较好的是Yi,ChatGLM目前中文表现较好的是LLaMA2.验证用手上的数据、任务的数据验证一下哪个模型最好如果手上没有数据，可以寻找相关的任务/领域通用数据如果效果比较
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。