MOLLYSMITH-CSDN博客

原创大模型技术30讲-7-多GPU训练模式

在模型并行策略下，将不同的层分布到不同的GPU上，以解决单GPU显存限制的问题。在数据并行中，将批量数据拆分到多个GPU上，以解决无法并行训练的问题，数据并行会计算梯度的平均值来更新权重。序列并行方案将输入序列分割成更小的块，拆分到不同的GPU上，从而减少自注意力机制对计算内存的需求。与以上方法不同的是，序列并行专门处理有序数据，张量并行更多地针对模型的内部结构，而数据并行则针对训练数据的划分。，是一种将大规模的不同部分放到不同的GPU设备上按序计算的技术，计算的过程中数据会在不同设备间传递。

2025-07-10 08:42:19 827

原创大模型技术30讲-6-通过改进模型减少过拟合现象

首先，教师模型通过常规的监督学习进行训练，并使用传统的交叉熵损失来确保能够准确分类数据集中的样本，损失是根据预测分数与真实标签之间的差异来计算的。学生模型会在同一个数据集上接收训练，但它训练的目标是同时减少(a)学生模型输出与分类标签之间的交叉熵，以及(b)学生模型输出与教师模型输出之间的差异(这里的差异通过Kullback-Leibler(KL)散度来衡量，这种度量方式会比较两个概率分布在信息量上的相对偏差，从而量化差异大小)。还有一个好处是，较小的学生模型可能比较大的教师模型更不容易产生过拟合现象。

2025-06-20 10:45:07 849

原创大模型技术30讲-5-利用数据来减少过拟合现象

过拟合是机器学习中经常遇到的问题，它是指模型对训练数据拟合得过于紧密，导致学习到了数据的噪声和异常值。而并非数据背后的真实规律。结果造成模型在训练数据上表现良好（甚至可能达到100%准确率），但在未见过的数据或测试数据上都表现不佳。虽然有办法减少过拟合，但很难将其彻底消除，因此，我们的目标是尽可能将过拟合最小化。减少过拟合现象最有效的方式是采集更多高质量的有标签数据。但如果我们无法得到更多有标签数据，也可以通过增强现有数据或利用无标签数据进行预训练等方法来对付过拟合。

2025-06-12 23:49:18 677

原创大模型技术30讲-4-彩票假设

彩票假设是一个关于神经网络训练的概念，它认为在一个随机初始化的神经网络中，存在着这样一个子网络（也称为“中奖彩票”）：如果单独训练，在训练步骤相同的情况下，能在测试集上达到与一个完整的网络一样高的正确率。

2025-06-11 22:31:01 465

原创大模型技术30讲-3-小样本学习

摘要：小样本学习是一种监督学习方法，适用于标签样本量极为有限的情况。其核心是通过支撑集构建多任务训练回合，采用N-way K-shot范式（N为标签数，K为样本数）。模型在训练阶段使用支撑集抽样生成任务，测试阶段则处理全新标签任务。主流方法元学习通过优化模型参数使其快速适应新任务。该方法为数据稀缺场景提供了有效解决方案。

2025-06-10 23:06:31 386

原创大模型技术30讲-2-自监督学习

自监督学习是一种预训练过程，能够让神经网络以监督学习方式学习大规模无标签数据集。

2025-06-08 22:29:45 426

原创大模型技术30讲-1

表征是输入的一种编码形式，通常是输入的中间形态。融入了原始数据的一些基本特征和属性，使其在后续的数据分析和数据处理中都能轻易使用。[1] 塞巴斯蒂安·拉施卡, 大模型技术30讲, 人民邮电出版社(北京), 2025, P1-P5.嵌入向量简称嵌入，能够将高维数据编码为低维向量，可以比原始数据维数更高，也可以更低。嵌入向量被映射到的空间。

2025-06-05 07:55:38 299

原创 Anaconda环境在服务器间的迁移

首先，在服务器A上创建3.10，名称为mplug_owl2的python环境，然后使用conda-pack把服务器A上的环境复制至服务器B中，B中conda环境路径为/home/usr/miniconda3/envs/，具体操作过程下面进行详细概述。

2024-04-26 20:30:36 621 1

原创 VSCODE完全卸载指南

卸载一定要干净！！！困扰吗喽10天的问题终于解决了。

2024-04-16 13:18:12 760

原创基础内容学习

这里主要截取了以上典型模型的流程图，方便自己查看典型模型的框架。

2024-04-11 16:02:38 366

原创离线安装VScode Server和Extensions

服务器离线安装vscode-server。

2024-04-09 21:33:44 10982 9

原创 T5 运动鞋识别

划分训练集和测试集，其中训练集数据为502张，测试集数据为76张。导入数据并展示示例图片，图片总数为2142。构建三层卷积、两层全连接的神经网络。导入相关的包，并使用特定的GPU。

2023-11-24 21:57:31 482 1

原创 GPU版本tensorflow安装

由于tensorflow默认安装都是CPU版本，之前一直安装gpu版本出现很多问题，这里终于找到一种安装方法，以及自己电脑对应的版本。供大家参考。其中找到的比较优质的博文参考如下（1）（2）（3）

2023-11-18 12:18:24 477 1

原创 T4猴痘病识别

在anaconda prompt中新建名称为tensorflow_cpu的环境，并安装tensorflow，matplotlib的包。同时脚本代码为ipy文件，需要安装ipykernel。[在这里插入图片描述](https://img-blog.csdnimg.cn/cfebf30b0b254833a5c12e238fa72ca4.png#pic_center。划分训练集和测试集，其中训练集数据为900张，测试集数据为225张。采用CPU训练速度已经可见有些慢。导入数据并展示示例图片，图片总数为2142。

2023-11-17 21:29:02 244

原创 T3 天气识别

在anaconda prompt中新建名称为tensorflow_cpu的环境，并安装tensorflow，matplotlib的包。同时脚本代码为ipy文件，需要安装ipykernel。本文采用Tensorflow的框架，进行天气图像的检测识别，数据由K同学提供。可以看出，当训练epoch在20次以后，训练集精度已经到达1，训练集误差已经到0。划分训练集和测试集，其中训练集数据为900张，测试集数据为225张。构建三层卷积、两层全连接的神经网络。导入数据并展示示例图片。输出使用的电脑配置。

2023-11-10 14:14:48 183 1

原创 T2 彩色图像识别

简单卷积神经网络识别cifar10图像。

2023-11-03 19:34:28 173 1

原创 W8,W9yolov5 backbone做目标识别

采用C3模块得到的训练精度如下。每个epoch的训练结果如下所示。Done。

2023-10-26 19:36:40 137 1

原创 Week7，咖啡豆识别

（1）采用自己构建的VGG16网络进行训练得到的训练结果如下。最终准确率可以达到96.7%，最好模型准确率为98.3%。（2）调用官方的VGG16并再次训练分类器，得到的准确率为99.6%。模型的参数、训练结果和每个epoch的结果如下。Done预测结果是：Dark。

2023-10-20 14:04:52 164 1

原创 Week6 好莱坞明星识别

（1）采用原始网络进行训练得到的训练结果如下。可以看到训练精度大概再百分之二十多，比较低。同时注意到在epoch40以内，训练精度、测试精度、训练误差、测试误差都没有达到稳定值，但有收敛趋势。可以稍微增大一下学习率。（2）改进结构，使得精度达到60%以上。为了提高精度，我把分类器中的参数都进行了学习训练，并添加droupout层防止过拟合。首先看一下网络代码。set_parameter_requires_grad(self.features, feature_extract)#固定特征提取层参数。

2023-10-20 12:21:56 144 1

MOLLYSMITH的博客

原创大模型技术30讲-7-多GPU训练模式

原创大模型技术30讲-6-通过改进模型减少过拟合现象

原创大模型技术30讲-5-利用数据来减少过拟合现象

原创大模型技术30讲-4-彩票假设

原创大模型技术30讲-3-小样本学习

原创大模型技术30讲-2-自监督学习

原创大模型技术30讲-1

原创 Anaconda环境在服务器间的迁移

原创 VSCODE完全卸载指南

原创基础内容学习

原创离线安装VScode Server和Extensions

原创 T5 运动鞋识别

原创 GPU版本tensorflow安装

原创 T4猴痘病识别

原创 T3 天气识别

原创 T2 彩色图像识别

原创 W8,W9yolov5 backbone做目标识别

原创 Week7，咖啡豆识别

原创 Week6 好莱坞明星识别

原创 Week5 运动鞋识别

原创 Week4 猴痘病识别

原创 Week3天气图像识别

原创 Week2 彩色图像CIFAR10图像识别

原创 Week1，实现MNIST手写数字识别

原创 Python读取mat格式数据

原创 size-constrained-clustering

原创目录文件的读取

原创数据集标注

原创毕业设计之——论文参考文献格式

空空如也

空空如也