是Yccc啊-CSDN博客

原创深度学习之自然语言处理与bert

注意力的本质是关注程度的量化：面对一个序列，模型需要判断「当前词应该对其他哪些词投入更多关注」。比如处理句子「我漫步来到赛汗塔拉城中草原，我与它结下了不解之缘」时，模型处理「它」时，会对「赛汗塔拉城中草原」投入更高的注意力，对其他词投入较低的注意力。用公式简单表示，某个词的输出特征是所有词特征的加权和：Out=0.1∗A+0.2∗B+0.5∗C+0.2∗D其中 0.1、0.2、0.5 就是注意力权重，权重越大，说明该词对当前词的影响越大。

2026-03-03 23:33:52 405

原创深度学习之图像分类实战

else:self.Y = torch.LongTensor(self.Y) #标签转为长整形\else:# 列出文件夹下所有文件名字print("读到了%d个数据" % len(xi))return xielse:# 列出文件夹下所有文件名字yi[j] = iif i == 0:X = xiY = yielse:print("读到了%d个数据" % len(Y))else:#3 *224 *224 -> 512*7*7 -> 拉直 -》全连接分类nn.ReLU(),

2026-02-24 22:57:31 379

原创深度学习之图像分类

2014年，VGG网络被提出，其在AlexNet的基础上，运用了更小的卷积核，并且加深了网络，达到了更好的效果。创新在于更深，更大。比如：输入通道：256，1×1 卷积 → 通道变成 64（降维），再做 3×3 卷积（计算量小很多），再 1×1 卷积 → 256（恢复维度）如下图，左边的5*5的需要25个参数，而右边利用两个3*3的卷积依然可以得到5*5的感受野，且只需要18个参数使得效率更高。神经网络最后一层输出的并不是“概率，这些数值：可以是任意实数，不在 0~1 之间，也不一定加起来等于 1。

2026-02-20 22:19:56 587

原创深度学习之回归实战1

data（最重要的部分）：一般输入是文件地址，或者数据内容，输出是一个存储了数据X,Y的数据结构model：定义自己的模型，输入x，输出预测值hyperpara：除模型外的超参。如：学习率，优化器，损失函数等训练流程。

2026-02-11 14:05:54 881

原创深度学习之linear

人为生成一批线性数据（带噪声）把数据画出来看看用 mini-batch + 随机打乱的方式提供数据手写线性回归模型 + MAE 损失 + SGD训练参数并画出拟合结果数学模型就是： x = torch.normal(0, 1, (data_num, len(w))) 形状：每一行是一条样本每一列是一个特征y = torch.matmul(x, w) + b 实现该模块的作用就是模拟真实世界生成数据的机制 true_w,和true_b这是我们知道的答案，是我们

2026-02-01 23:56:36 747

原创深度学习之多层神经网络

每个神经元可以被看作是一个计算单元，它接收来自前一层神经元的输入，通过加权求和运算后，添加偏置项，并通过激活函数来输出最终的结果。如果没有激活函数，无论网络多么复杂，最后输出都是输入的线性组合，而纯粹的线性组合并不能解决问题。引入激活函数后，由于激活函数都是非线性的，这样就给神经元引入了非线性元素，使得神经网络可以逼近任何非线性函数，因此神经网络应用到更多非线性模型中。神经元的工作方式模拟了人脑中的生物神经元，即接收输入信号、加权处理、求和后添加偏差，最后通过激活函数转换得到输出信号。

2026-01-23 23:25:07 314

原创深度学习之初探索

比如射箭，射出去很多支箭，再去看每支箭都得到了几分，最后找到这个人射箭的方法习惯和力度之类的。从全称也可以得知该算法和k的取值有关，因此当预测一个新的值x时，根据它距离最近的k个点中，哪部分占比更大，x就属于哪个类别。3.三种数据输出（任务类别）形式（相当于函数中的y）：回归任务（相当于填空题），分类任务（相当于选择题），生成任务/结构化（相当于简答题，2.三种数据输入形式（相当于函数中的x）：向量，矩阵/张量（如图片），序列（数据中元素。搜索，因为这是最陡下降的方向。）和对应的参数w、b的过程就是优化。

2026-01-22 22:37:49 431

m0_74339586的博客