自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 如何使用大模型高效生产数据[含完整代码]

大模型出现之前我们的训练数据大都依赖人工标注、开源数据以及从线上数据中构造合适的监督数据,如果开源数据不太符合我们的业务需求(大部分情况下无法直接满足要求),且已有的线上数据也没办法抽取出符合要求的监督数据,这个时候恐怕只能依赖于人工标注了,但是人工标注又非常的耗费人力和时间。大模型出现后给我们提供了新的选择,我们可以通过构造高质量的prompt使用大模型给我们生产数据。原理其实很简单,所以本次分享的重点其实不在于原理,主要是想将本人工作中经常使用的一套代码分享出来,供大家直接使用。

2024-09-27 22:46:46 711

原创 混合精度训练数据类型详解

1. 不同操作使用的数据类型a) 模型参数和激活值: FP16原因: 减少内存使用,允许更大批量或更大模型 优势: FP16只需FP32一半的内存空间b) 梯度计算: FP16原因: 加速反向传播,减少内存使用 注意: 需要使用损失缩放防止梯度消失c) 主要计算(如矩阵乘法): FP16原因: 提高计算速度,减少内存带宽需求 优势: 现代GPU对FP16运算有硬件级优化d) 关键操作(损失计算和权重更新): FP32原因: 保持数值稳定性和训练精度 重要性: 这些操作对训练

2024-09-27 11:29:21 127

原创 DeepSpeed ZeRO-3 内存估算

DeepSpeed ZeRO-3 提供了灵活的内存优化选项,允许在不同的硬件配置下高效训练大型模型。理解各参数的作用及其相互影响对于优化训练过程至关重要。在实际应用中,需要根据具体的模型大小、硬件资源和训练需求来选择最合适的配置。

2024-09-26 22:07:43 360

原创 在Linux上部署FastAPI和Flask应用的最佳实践

在Web开发领域,选择合适的框架和部署策略对应用的性能和可维护性至关重要。本文将详细介绍如何在Linux系统上部署FastAPI和Flask应用,使用Gunicorn作为WSGI服务器,并用Nginx作为反向代理。这种设置适合小型到中型的生产环境,提供了良好的性能、安全性和可扩展性。

2024-09-26 22:03:44 332

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除