- 博客(20)
- 资源 (1)
- 收藏
- 关注
原创 如何使用trl进行LoRA微调
本文介绍了使用trl库对Qwen-2.5模型进行SFT LoRA微调的方法,同时介绍了如何使用Deepspeed进行并行训练。
2025-11-09 19:29:55
946
原创 Scaled Dot-Product Attention详解
本文详细介绍了 Scaled Dot-Product Attention 的机制、计算步骤、以及一个详细的计算过程样例。
2024-08-13 15:43:57
5120
1
SFT训练数据样例,Conversational格式
资源仅是样例数据,经过清理后的json格式。完整资源请访问原地址。
数据来源:https://huggingface.co/datasets/trl-lib/ultrafeedback-gpt-3.5-turbo-helpfulness/tree/main/data
2025-11-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅