qq_57067122-CSDN博客

原创 Datawhale X 李宏毅苹果书 AI夏令营第五期LeeDL task3

在神经网络模型的测试（推理）阶段，归一化处理通常会与训练阶段略有不同，尤其是对于批量归一化（Batch Normalization）这种依赖批次统计量的归一化方法。批量归一化是一种广泛应用的方法，用于对中间层的激活值进行归一化。- 使用训练期间的移动平均值和方差：在训练过程中，批量归一化会维护全局的移动平均值和方差，这些统计量是在所有训练批次上累积计算的。- 其他归一化方法：如层归一化、实例归一化、群归一化等，由于它们在训练和测试阶段的处理一致，测试阶段仍然对当前样本计算均值和方差进行归一化。

2024-09-03 22:34:57 1751

原创 Datawhale X 李宏毅苹果书 AI夏令营第五期LeeDL task2

在梯度下降里面，所有的参数都是设同样的学习率，这显然是不够的，应该要为每一个参数定制化学习率，即引入自适应学习率（adaptive learning rate）的方法，给每一个参数不同的学习率。可以使用AdaGrad， RMSProp和 Adam等方法进行。用一般的梯度下降训练，往往会在梯度还很大的时候，损失就已经降了下去，这个是需要特别方法训练的。要走到一个临界点其实是比较困难的，多数时候训练在还没有走到临界点的时候就已经停止了。

2024-08-31 23:56:01 119

原创 Datawhale AI夏令营第五期-CV task3学习笔记

用法:常用于目标检测任务，通过组合图像，可以模拟出不同大小和位置的目标，增加训练数据的多样性，提高模型对不同场景的鲁棒性。区别:直接修改图像内容，通过简单的复制粘贴方式来合成新样本，增加了图像内容的复杂性，但有时会引入不自然的边界。区别:主要涉及图像颜色的变化，不改变几何结构，只调整图像的视觉表现，适用于需要对光照不敏感的任务。区别:主要是几何变换，不改变图像内容，只改变视角和结构，增强模型对图像姿态变化的容忍度。区别:简单直接，只改变图像的镜像方向，增强方法较为基础，但在许多任务中依然有效。

2024-08-31 23:51:29 318

原创 Datawhale AI夏令营第五期-CV task2学习笔记

YOLOv8n（"nano"）是最小的变体，具有较少的参数和计算量。task2代码中给出了yolov8n和yolov8s两种模型，这两种模型是YOLOv8模型的两种变体。YOLOv8n 更适合实时应用或者资源受限的设备，例如移动设备或者嵌入式系统，因为它在速度和资源消耗上优化得更好。YOLOv8s 适合需要更高准确性的应用场景，同时能够容忍较高的计算资源消耗，例如在服务器或高性能计算环境中运行。YOLOv8s 能够更好地捕捉细节和处理复杂的场景，在目标检测任务中的精度会比 YOLOv8n 高。

2024-08-29 23:50:45 150

原创 Datawhale X 李宏毅苹果书 AI夏令营第五期LeeDL task1

小批量的测试效果也更好，大的批量大小会让我们倾向于走到狭窄的最小值“峡谷”里面，而小的批量有很多的损失函数，更新方向比较随机，倾向于走到范围比较宽的最小值“盆地”里面。来判断，H是正定矩阵，则是局部极小值，H是负定矩阵，则是局部最大值，H特征值有正有负，则是鞍点。：每次在移动参数的时候，不是只往梯度的反方向来移动参数，而是根据梯度的反方向加上前一步移动的方向决定移动方向。在有考虑并行计算的时候，大的批量大小反而是较有效率的，一个回合大的批量花的时间反而是比较少的。在临界点的附近，损失函数可被近似为。

2024-08-27 23:45:00 234

原创 Datawhale AI夏令营第五期-CV task1学习笔记

1. 尝试在本地运行，但是始终遇到“ModuleNotFoundError: No module named 'ultralytics'”的报错，即使安装好相关库也始终未能解决，因而没有跑通。2. 尝试在厚德云GPU上运行，除了第一次运行遇到数据下载出错导致的报错以外，运行流畅，约20分钟完成，成绩0.0047834701569362。1. 了解代码和模型的含义：单纯跑通不了解模型，也不明白如何修改和提升效率。2. 了解评分机制：尝试在本地使用验证集进行测试。3. 尝试在本地跑通代码。

2024-08-26 23:31:58 141

原创大模型理论基础打卡Task05

2023-12-15 23:54:10 389

原创大模型理论基础打卡Task04

2023-12-15 23:53:18 341

原创大模型理论基础打卡Task03

2023-12-14 21:38:41 391 1

原创大模型理论基础打卡Task01

2023-12-13 22:22:40 358 1

原创大模型理论基础Task02-打卡

2023-12-13 22:21:07 386 1

原创大模型理论基础Task02-补充

几何平均数和算术平均数是两种不同的统计方法，用于表达一组数的“平均”水平，但它们的计算方法和应用场景有所不同。算术平均数（Arithmetic Mean）：几何平均数（Geometric Mean）：应用：用于不同数量级的数值，常用于分析比率、增长率等，如投资回报率。区别：“困惑度可以被理解为每个标记的分支因子” 这句话是在将困惑度（Perplexity）的概念类比于分支因子，主要用于自然语言处理（NLP）中，特别是在语言模型的评估中。让我们分步来理解这个陈述：困惑度（Perplexity）的定

2023-12-13 15:03:05 1624

原创大模型理论基础Task01-补充

这就是说交叉熵的值至少和熵一样大，通常是更大的。之间的一个重要关系，具体来说，是交叉熵的值不小于熵的值。这个属性源自信息论中的一些基本概念，特别是相对熵（也称为KL散度）的概念。：如前所述，香农熵是用来量化一个随机变量的不确定性的。一个随机变量的香农熵越高，意味着它的不确定性越大，即它提供的信息量越多。总的来说，交叉熵和香农熵在概念上是紧密相连的，它们都与衡量信息的不确定性和差异有关。：交叉熵是用来度量两个概率分布之间的差异的。交叉熵和香农熵都是信息论中的重要概念，它们之间有密切的关系。

2023-12-13 01:47:45 1591

原创吃瓜教程Task1-补充

简而言之，验证集用于模型选择和调整，而测试集用于评估模型的最终泛化能力。正确的做法是只使用一次测试集来评估模型，确保评估的有效性和公正性。调和平均（Harmonic Mean）是一种平均数的计算方法，它是数据集的倒数的算术平均数的倒数。换句话说，如果你有一组数。，它们的调和平均数是 ( n ) 除以这些数倒数的总和。

2023-12-12 23:50:06 825

原创吃瓜教程打卡Task01

2023-12-12 23:39:58 349

qq_57067122的博客