自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 Datawhale AI夏令营基于术语词典干预的机器翻译挑战比赛-task2(模型优化笔记)

梯度累计(Gradient Accumulation)是一种在深度学习训练过程中有效利用内存和计算资源的技术。它通过在多个小批次(micro-batches)上累积梯度,并在特定步数后进行一次参数更新,从而实现大批次训练的效果。这对于显存有限的硬件设备尤为重要。混合精度训练(Mixed Precision Training)是一种利用半精度(16位浮点数,FP16)和单精度(32位浮点数,FP32)结合进行神经网络训练的技术。这种方法能够显著提高训练速度和减少显存占用,同时还能保持模型的精度和稳定性。

2024-07-17 21:23:40 368

原创 Datawhale AI夏令营基于术语词典干预的机器翻译挑战比赛-task1

通过阅读文档对模型有了一个初步的认识,但是对代码里详细语句和变量的作用还是很迷,对数据处理的具体流程有了一个大致的了解,其中流程中的“数据清洗”并没有在代码中得到实现,在task2的完成过程中可能会针对这个做一些优化。对于其他部分的代码只能说还停留在一个“大概知道什么用”的情况,后续估计还得把torch的函数解析单拎出来看,至于流程上的优化暂时还不考虑。虽然有一定的代码和项目基础,但是对模型训练这方面的接触较少,今天总结一下这两天测试下来的经验和想法。

2024-07-15 14:22:31 364

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除