自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_51345859的博客

原创 20251029学习任务

1、存在警告：output_attentions参数无效（不影响输出）—— generate方法不支持output_attentions参数。训练100次，损失从3.066446下降到0.000249。训练10次，损失从2.670734下降到0.251748。训练30次，损失从2.542754下降到0.002047。训练50次，2.703782下降到0.000622。—— 修改prompt（添加上下文、角色设定）训练200次，翻译结果无问题。训练200次，翻译结果无问题。2.3 缩放点积注意力。

2025-11-11 20:11:50 568

原创 20251022学习任务-实践训练模块

12 层是个 “中间值”—— 比小模型（3 - 6 层）理解能力强，又比超大型模型（24 层 + ）训练、推理快，适合大多数 NLP 任务（分类、问答）。每个单元格中的线表示从一个标记（左）到另一个标记（右）的注意力，线重与注意力值成正比（范围从 0 到 1）。在BERT模型中，‌CLS‌（Classification）和‌SEP‌（Separator）是两个特殊标记，用于处理输入序列的结构和语义表达。可视化同一层中一个或多个注意力头的注意力模式，帮助分析单个注意力头的行为，可以看到每个头关注什么。

2025-10-27 21:05:02 886

原创 20251022学习任务-理论学习模块

在Cross Attention中，Decoder会计算当前时刻的输出与Encoder输出的上下文向量之间的注意力权重，然后将这些权重应用于上下文向量，以获取一个加权的上下文表示。即Encoder的作用是将输入的一排向量，输出为一排同等数量的向量。Self- Attention中没有位置信息，所以需要位置编码为模型提供序列中元素的位置信息，以弥补模型本身对顺序感知的不足。下图为Self-attention 层从输入到输出的计算流程图总览，所有的输出都是并行的。在最开始的每个输入中加入位置向量。

2025-10-25 23:21:54 924

原创《深度学习入门》斋藤康毅-手写数字识别案例

运行mnist.py文件会下载 MNIST 数据集，书中提供源码的下载链接已失效，换用新的镜像网站，第一次运行该文件时，需要保持网络通畅。111运行完成后，会在同一文件夹下生成 MNIST 数据集所含的 ‘train-images-idx3-ubyte.gz’、‘train-labels-idx1-ubyte.gz’、‘t10k-images-idx3-ubyte.gz’、‘t10k-labels-idx1-ubyte.gz’ 等四个文件，以及 mnist.pkl 文件。

2025-10-22 13:42:05 249

原创 20250928学习任务

使用三层线性神经网络实现手写字识别任务，参考资料： https://www.cnblogs.com/Yanjy-OnlyOne/p/11538099.html https://blog.csdn.net/qq_51366016/article/details/129206517输入经过一系列线性变换（矩阵乘法和加法），直接得到输出。y=Wx+bx：输入向量（n维）W：权重矩阵（m×n）b：偏置项（m维）y：输出向量（m维）forward前向传播是神经网络进行预测的过程。数据从输入层开始，逐层

2025-10-22 11:50:26 976

原创 20250928结合任务图解神经网络运算的思路和步骤

以为例图解神经网络运算的思路和步骤。这个过程分为训练和推理两个阶段。《深度学习入门》斋藤康毅 P69 3.6。

2025-10-21 23:48:52 900

原创深度学习入门路线1.1：鱼书第一、二、三章

也就是说，相同构造的感知机，只需通过适当地调整参数的值，就可以像“变色龙演员”表演不同的角色一样，变身为与门、与非门、或门。感知机表示与非门，实际上，只要把实现与门的参数值的符号取反，就可以实现与非门，比如(w1, w2, θ) = (−0.5, −0.5, −0.7)。线性函数的问题则在于，不管如何加深层数，总是存在与之等效的“无隐藏层的神经网络”因此，为了发挥叠加层所带来的优势，激活函数必须使用非线性函数。这里，将最左边的一列称为第0层，中间的一列称为第1层，最右边的一列称为第2层。

2025-10-19 22:54:20 542

原创深度学习入门路线0：python学习

本文仅介绍python最基础的知识，笔记内容非原创，来自课程讲解及不同博客

2025-09-19 14:49:06 765

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除