Baichuan2-7b-Base 裁剪

最新推荐文章于 2024-12-16 15:24:40 发布

长腿老头o3o

最新推荐文章于 2024-12-16 15:24:40 发布

阅读量342

点赞数 7

文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_61631811/article/details/135662025

版权

作者分享了在使用Huggingface库进行模型微调时的经历，包括模型裁剪以提高速度，遇到的加载模型和参数调整问题，以及配置文件一致性的重要性。过程中强调了代码复杂性和学习曲线。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 终于完成了一个模型裁剪（很简单的）-微调（lora，速度据说为全量的1/8）-推理-评测。其实并没有想象中那么难，一切都是可以入手的，没有人一开始什么都会的。

2. huggingface加载模型问题可以改配置

3. 尝试修改参数size，报错😭。并且添加Ignore mismatched size=True 没有用（可能没找对地方），明天仔细阅读Transformers的modelling_ utils.py 和 torch.nn里面的module.py😭架构好复杂，代码好长，心累。

4. 仅修改加载后的statedict，不能和config保持一致的话，还是会报错。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。