Baichuan2-7b-Base 裁剪

作者分享了在使用Huggingface库进行模型微调时的经历,包括模型裁剪以提高速度,遇到的加载模型和参数调整问题,以及配置文件一致性的重要性。过程中强调了代码复杂性和学习曲线。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 终于完成了一个模型裁剪(很简单的)-微调(lora,速度据说为全量的1/8)-推理-评测。其实并没有想象中那么难,一切都是可以入手的,没有人一开始什么都会的。

2. huggingface加载模型问题可以改配置

3. 尝试修改参数size,报错😭。并且添加Ignore mismatched size=True 没有用(可能没找对地方),明天仔细阅读Transformers的modelling_ utils.py 和 torch.nn里面的module.py😭架构好复杂,代码好长,心累。

4. 仅修改加载后的statedict,不能和config保持一致的话,还是会报错。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值