机器学习心得

本文介绍了离散型随机变量的概念,包括其在数据中的角色和离散型概率分布。此外,针对PyTorch的训练过程,详细讨论了如何使用transformer的trainer参数gradient_accumulation_steps解决显存不足问题,并解释了.pytorch的.item()方法在张量转换中的作用。同时,探讨了DataLoader的drop_last参数对模型训练的影响。
摘要由CSDN通过智能技术生成

数据相关:

离散型随机变量

1、随机变量分为离散型随机变量与非离散型随机变量两种,随机变量的函数仍为随机变量。
2、有些随机变量,它全部可能取到的不相同的值是有限个或可列无限多个,也可以说概率1以一定的规律分布在各个可能值上。这种随机变量称为"离散型随机变量"。
3、“离散型随机变量”的概率分布被称为“离散型概率分布”

transformer的trainer参数

gradient_accumulation_steps通过累计梯度来解决本地显存不足问题, 设置参数gradient_accumulation_steps后,
batch_size=原始batch_sizegradient_accumulation_steps。
logging_steps显示的loss值是logging_steps个batch_size的loss的平均值;如果设置了gradient_accumulation_steps,则为logging_steps个原始batch_size
gradient_accumulation_steps的loss的平均值。

PyTorch:

pytorch的.item()方法

作用:pytorch中的.item()用于将一个零维张量转换成浮点数(标量)
例子:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值