自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 ConnectionError: Couldn‘t reach ‘samsum‘ on the Hub (ConnectTimeout)

127.0.0.1 是主机环回地址。主机环回是指地址为 127.0.0.1 的任何数据包都不应该离开计算机(主机),发送它——而不是被发送到本地网络或互联网,它只是被自己“环回”,并且发送数据包的计算机成为接收者。1、下载datasets及其相关文件。配置pycharm HTTP代理。在本机上配置了服务器相同的环境。

2024-05-23 20:52:39 631

原创 finetune llama2 error1

transformers版本更新,没有top_k_top_p_filtering()函数了,可以安装合适版本的transformers(

2024-05-14 20:36:29 225 1

原创 .zero_grad()的重要性

根据pytorch中的backward()函数的计算,当网络参量进行反馈时,梯度是被积累的而不是被替换掉;但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积,因此这里就需要每个batch设置一遍zero_grad。如果不是每一个batch就清除掉原有的梯度,而是比如说两个batch再清除掉梯度,这是一种变相提高batch_size的方法,对于计算机硬件不行,但是batch_size可能需要设高的领域比较适合,比如目标检测模型的训练。不写.zero_grad()的代码结果。

2022-10-17 12:57:02 1124 1

原创 RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

pytorch是动态图机制,在训练模型时候,每迭代一次都会构建一个新的计算图(计算图是代表程序中变量之间的关系),为了节约内存,所以每次一轮迭代完也即是进行了一次backward函数计算之后计算图就被在内存释放,所以当计算第二次backward()时,计算图的结构已经被破坏,因此如果需要多次backward时只需要在第一次反向传播时候添加一个。新的a和原来的a已经完全不一样,对新的a进行backward,自动计算所有的梯度, 这个张量的所有梯度将会自动积累到。标识,让计算图不被立即释放。

2022-10-17 12:43:44 2901 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除