- 博客(8)
- 收藏
- 关注
原创 20251029学习任务
1、存在警告:output_attentions参数无效(不影响输出)—— generate方法不支持output_attentions参数。训练100次,损失从3.066446下降到0.000249。训练10次,损失从2.670734下降到0.251748。训练30次,损失从2.542754下降到0.002047。训练50次,2.703782下降到0.000622。—— 修改prompt(添加上下文、角色设定)训练200次,翻译结果无问题。训练200次,翻译结果无问题。2.3 缩放点积注意力。
2025-11-11 20:11:50
565
原创 20251022学习任务-实践训练模块
12 层是个 “中间值”—— 比小模型(3 - 6 层 )理解能力强,又比超大型模型(24 层 + )训练、推理快,适合大多数 NLP 任务(分类、问答 )。每个单元格中的线表示从一个标记(左)到另一个标记(右)的注意力,线重与注意力值成正比(范围从 0 到 1)。在BERT模型中,CLS(Classification)和SEP(Separator)是两个特殊标记,用于处理输入序列的结构和语义表达。可视化同一层中一个或多个注意力头的注意力模式,帮助分析单个注意力头的行为,可以看到每个头关注什么。
2025-10-27 21:05:02
885
原创 20251022学习任务-理论学习模块
在Cross Attention中,Decoder会计算当前时刻的输出与Encoder输出的上下文向量之间的注意力权重,然后将这些权重应用于上下文向量,以获取一个加权的上下文表示。即Encoder的作用是将输入的一排向量,输出为一排同等数量的向量。Self- Attention中没有位置信息,所以需要位置编码为模型提供序列中元素的位置信息,以弥补模型本身对顺序感知的不足。下图为Self-attention 层从输入到输出的计算流程图总览,所有的输出都是并行的。在最开始的每个输入中加入位置向量。
2025-10-25 23:21:54
923
原创 《深度学习入门》斋藤康毅-手写数字识别案例
运行mnist.py文件会下载 MNIST 数据集,书中提供源码的下载链接已失效,换用新的镜像网站,第一次运行该文件时,需要保持网络通畅。111运行完成后,会在同一文件夹下生成 MNIST 数据集所含的 ‘train-images-idx3-ubyte.gz’、‘train-labels-idx1-ubyte.gz’、‘t10k-images-idx3-ubyte.gz’、‘t10k-labels-idx1-ubyte.gz’ 等四个文件,以及 mnist.pkl 文件。
2025-10-22 13:42:05
249
原创 20250928学习任务
使用三层线性神经网络实现手写字识别任务,参考资料: https://www.cnblogs.com/Yanjy-OnlyOne/p/11538099.html https://blog.csdn.net/qq_51366016/article/details/129206517输入经过一系列线性变换(矩阵乘法和加法),直接得到输出。y=Wx+bx:输入向量(n维)W:权重矩阵(m×n)b:偏置项(m维)y:输出向量(m维)forward前向传播是神经网络进行预测的过程。数据从输入层开始,逐层
2025-10-22 11:50:26
973
原创 20250928结合任务图解神经网络运算的思路和步骤
以为例图解神经网络运算的思路和步骤。这个过程分为训练和推理两个阶段。《深度学习入门》斋藤康毅 P69 3.6。
2025-10-21 23:48:52
892
原创 深度学习入门路线1.1:鱼书第一、二、三章
也就是说,相同构造的感知机,只需通过适当地调整参数的值,就可以像“变色龙演员”表演不同的角色一样,变身为与门、与非门、或门。感知机表示与非门,实际上,只要把实现与门的参数值的符号取反,就可以实现与非门,比如(w1, w2, θ) = (−0.5, −0.5, −0.7)。线性函数的问题则在于,不管如何加深层数,总是存在与之等效的“无隐藏层的神经网络”因此,为了发挥叠加层所带来的优势,激活函数必须使用非线性函数。这里,将最左边的一列称为第0层,中间的一列称为第1层,最右边的一列称为第2层。
2025-10-19 22:54:20
538
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅