FaFa_Not_Flower-CSDN博客

原创 ConnectionError: Couldn‘t reach ‘samsum‘ on the Hub (ConnectTimeout)

127.0.0.1 是主机环回地址。主机环回是指地址为 127.0.0.1 的任何数据包都不应该离开计算机（主机），发送它——而不是被发送到本地网络或互联网，它只是被自己“环回”，并且发送数据包的计算机成为接收者。1、下载datasets及其相关文件。配置pycharm HTTP代理。在本机上配置了服务器相同的环境。

2024-05-23 20:52:39 631

原创 finetune llama2 error1

transformers版本更新，没有top_k_top_p_filtering()函数了，可以安装合适版本的transformers(

2024-05-14 20:36:29 225 1

根据pytorch中的backward()函数的计算，当网络参量进行反馈时，梯度是被积累的而不是被替换掉；但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积，因此这里就需要每个batch设置一遍zero_grad。如果不是每一个batch就清除掉原有的梯度，而是比如说两个batch再清除掉梯度，这是一种变相提高batch_size的方法，对于计算机硬件不行，但是batch_size可能需要设高的领域比较适合，比如目标检测模型的训练。不写.zero_grad()的代码结果。

2022-10-17 12:57:02 1124 1

原创 RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

pytorch是动态图机制，在训练模型时候，每迭代一次都会构建一个新的计算图（计算图是代表程序中变量之间的关系），为了节约内存，所以每次一轮迭代完也即是进行了一次backward函数计算之后计算图就被在内存释放，所以当计算第二次backward()时，计算图的结构已经被破坏，因此如果需要多次backward时只需要在第一次反向传播时候添加一个。新的a和原来的a已经完全不一样，对新的a进行backward，自动计算所有的梯度，这个张量的所有梯度将会自动积累到。标识，让计算图不被立即释放。

2022-10-17 12:43:44 2901 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

FaFa_Not_Flower的博客

原创 ConnectionError: Couldn‘t reach ‘samsum‘ on the Hub (ConnectTimeout)

原创 finetune llama2 error1

原创 .zero_grad()的重要性

原创 RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

空空如也

空空如也