数据相关:
离散型随机变量
1、随机变量分为离散型随机变量与非离散型随机变量两种,随机变量的函数仍为随机变量。
2、有些随机变量,它全部可能取到的不相同的值是有限个或可列无限多个,也可以说概率1以一定的规律分布在各个可能值上。这种随机变量称为"离散型随机变量"。
3、“离散型随机变量”的概率分布被称为“离散型概率分布”
transformer的trainer参数
gradient_accumulation_steps通过累计梯度来解决本地显存不足问题, 设置参数gradient_accumulation_steps后,
batch_size=原始batch_sizegradient_accumulation_steps。
logging_steps显示的loss值是logging_steps个batch_size的loss的平均值;如果设置了gradient_accumulation_steps,则为logging_steps个原始batch_sizegradient_accumulation_steps的loss的平均值。
PyTorch:
pytorch的.item()方法
作用:pytorch中的.item()用于将一个零维张量转换成浮点数(标量)
例子: