啥也不会的菜鸟-CSDN博客

原创 Transformer、Multi-Head-Self Attn、Mask-Multi-Head Self Att、Encoder-Decoder Cross Attn、CV cache（个人理解）

进行view操作，两者shape分别变化为（batch，target_token，head_num，head_dim）和（batch，source_token，head_num，head_dim），进行permute操作，两者shape分别变化为（batch，head_num，target_token，head_dim）和（batch，head_num，source_token，head_dim）在进行计算。）=（batch，token_num，embedding），与输入的shape一致。

2025-08-01 16:31:42 989

原创使用多项式测试过拟合和欠拟合

规定训练集和测试集大小均为100，超参数power用来调整用最高幂为几的函数去拟合训练集数据，规定生成的特征值和标签的前100个数据作为训练集，后100个数据作为测试集。若用更高阶的函数去拟合，在训练集上大多是可以得到更好的结果的，但在测试集上的结果并没有很好；使用最高幂为3的函数产生特征值和标签，生成的特征和标签包含训练集和测试集两部分，训练集只用来训练，测试集用于验证训练所得参数的优劣。(2).过拟合，使用最高幂大于3的函数去拟合。(3).欠拟合，使用最高幂小于3的函数去拟合。(3).理想的拟合曲线。

2023-08-17 10:34:51 388

原创多层感知机[从0实现]

对于无限多的模型，显然不可能所有模型均为线性关系，多层感知机正是为了克服线性回归的局限性而引入的，同时多层感知机引入了隐藏层，也可以称作中间层，对隐藏层使用激活函数来破坏线性关系。激活函数一定用在隐藏层，输入数据和输出数据均不使用激活函数。本多层感知机的实现和上一个softmax regression的实现过程基本一致，最大的区别体现在net中加入了隐藏层，并且对隐藏层使用了激活函数进行处理。y_hat [ range ( len ( y_hat ) ) , y ]：二维索引检索真实标签的预测概率。

2023-08-16 20:29:11 181

原创 softmax regression 从0开始的实现

每次训练60000个数据显然是不可行的，因此我们定义了batch_size，即每次拿出一部分数据进行训练，直到训练集中所有数据均被取过一遍后再进行下一个60000个数据的训练(和上一个6000个数据是一样的只是进行了顺序打乱处理)，测试集同理。产生的情况下对已经训练过的数据进行预测，在实际应用中我们观察模型的优劣性是观察其对没有出现过的事件进行预测的正确率来评价的，而对已经出现过的数据进行预测显然是没有实际意义的。使用经过训练后得到的参数集来对新数据预测，通过上述定义过的正确率函数来评价预测结果的优劣。

2023-08-16 19:12:01 134

原创多维线性回归

我们在第2部分定义损失函数时最终返回结果为一个张量，与上述平均损失相比应差一个批量大小，所以我们在梯度下降更新时除以批量大小(num_example)损失函数使用均方损失，这里我们没有进行平均处理，而是放到了梯度下降函数里进行处理平均问题。梯度优化过程需要使用torch.no_grad()包括起来，求完梯度需要进行梯度清零操作，若不清零则在下次求梯度时进行自动累加，导致无法得到最终结果。特征使用正态分布生成，均值为0，标准差为1，shape=( num_example , len(w) )。

2023-08-16 17:06:04 285 1