- 博客(15)
- 收藏
- 关注
原创 Datawhale X 李宏毅苹果书 AI夏令营 第五期LeeDL task3
在神经网络模型的测试(推理)阶段,归一化处理通常会与训练阶段略有不同,尤其是对于批量归一化(Batch Normalization)这种依赖批次统计量的归一化方法。批量归一化是一种广泛应用的方法,用于对中间层的激活值进行归一化。- 使用训练期间的移动平均值和方差:在训练过程中,批量归一化会维护全局的移动平均值和方差,这些统计量是在所有训练批次上累积计算的。- 其他归一化方法:如层归一化、实例归一化、群归一化等,由于它们在训练和测试阶段的处理一致,测试阶段仍然对当前样本计算均值和方差进行归一化。
2024-09-03 22:34:57 1751
原创 Datawhale X 李宏毅苹果书 AI夏令营 第五期LeeDL task2
在梯度下降里面,所有的参数都是设同样的学习率,这显然是不够的,应该要为每一个参数定制化学习率,即引入自适应学习率(adaptive learning rate)的方法,给每一个参数不同的学习率。可以使用AdaGrad, RMSProp和 Adam等方法进行。用一般的梯度下降训练,往往会在梯度还很大的时候,损失就已经降了下去,这个是需要特别方法训练的。要走到一个临界点其实是比较困难的,多数时候训练在还没有走到临界点的时候就已经停止了。
2024-08-31 23:56:01 119
原创 Datawhale AI夏令营第五期-CV task3学习笔记
用法:常用于目标检测任务,通过组合图像,可以模拟出不同大小和位置的目标,增加训练数据的多样性,提高模型对不同场景的鲁棒性。区别:直接修改图像内容,通过简单的复制粘贴方式来合成新样本,增加了图像内容的复杂性,但有时会引入不自然的边界。区别:主要涉及图像颜色的变化,不改变几何结构,只调整图像的视觉表现,适用于需要对光照不敏感的任务。区别:主要是几何变换,不改变图像内容,只改变视角和结构,增强模型对图像姿态变化的容忍度。区别:简单直接,只改变图像的镜像方向,增强方法较为基础,但在许多任务中依然有效。
2024-08-31 23:51:29 318
原创 Datawhale AI夏令营第五期-CV task2学习笔记
YOLOv8n("nano")是最小的变体,具有较少的参数和计算量。task2代码中给出了yolov8n和yolov8s两种模型,这两种模型是YOLOv8模型的两种变体。YOLOv8n 更适合实时应用或者资源受限的设备,例如移动设备或者嵌入式系统,因为它在速度和资源消耗上优化得更好。YOLOv8s 适合需要更高准确性的应用场景,同时能够容忍较高的计算资源消耗,例如在服务器或高性能计算环境中运行。YOLOv8s 能够更好地捕捉细节和处理复杂的场景,在目标检测任务中的精度会比 YOLOv8n 高。
2024-08-29 23:50:45 150
原创 Datawhale X 李宏毅苹果书 AI夏令营 第五期LeeDL task1
小批量的测试效果也更好,大的批量大小会让我们倾向于走到狭窄的最小值“峡谷”里面,而小的批量有很多的损失函数,更新方向比较随机,倾向于走到范围比较宽的最小值“盆地”里面。来判断,H是正定矩阵,则是局部极小值,H是负定矩阵,则是局部最大值,H特征值有正有负,则是鞍点。:每次在移动参数的时候,不是只往梯度的反方向来移动参数,而是根据梯度的反方向加上前一步移动的方向决定移动方向。在有考虑并行计算的时候,大的批量大小反而是较有效率的,一个回合大的批量花的时间反而是比较少的。在临界点的附近,损失函数可被近似为。
2024-08-27 23:45:00 234
原创 Datawhale AI夏令营第五期-CV task1学习笔记
1. 尝试在本地运行,但是始终遇到“ModuleNotFoundError: No module named 'ultralytics'”的报错,即使安装好相关库也始终未能解决,因而没有跑通。2. 尝试在厚德云GPU上运行,除了第一次运行遇到数据下载出错导致的报错以外,运行流畅,约20分钟完成,成绩0.0047834701569362。1. 了解代码和模型的含义:单纯跑通不了解模型,也不明白如何修改和提升效率。2. 了解评分机制:尝试在本地使用验证集进行测试。3. 尝试在本地跑通代码。
2024-08-26 23:31:58 141
原创 大模型理论基础Task02-补充
几何平均数和算术平均数是两种不同的统计方法,用于表达一组数的“平均”水平,但它们的计算方法和应用场景有所不同。算术平均数(Arithmetic Mean):几何平均数(Geometric Mean):应用:用于不同数量级的数值,常用于分析比率、增长率等,如投资回报率。区别:“困惑度可以被理解为每个标记的分支因子” 这句话是在将困惑度(Perplexity)的概念类比于分支因子,主要用于自然语言处理(NLP)中,特别是在语言模型的评估中。让我们分步来理解这个陈述:困惑度(Perplexity)的定
2023-12-13 15:03:05 1624
原创 大模型理论基础Task01-补充
这就是说交叉熵的值至少和熵一样大,通常是更大的。之间的一个重要关系,具体来说,是交叉熵的值不小于熵的值。这个属性源自信息论中的一些基本概念,特别是相对熵(也称为KL散度)的概念。:如前所述,香农熵是用来量化一个随机变量的不确定性的。一个随机变量的香农熵越高,意味着它的不确定性越大,即它提供的信息量越多。总的来说,交叉熵和香农熵在概念上是紧密相连的,它们都与衡量信息的不确定性和差异有关。:交叉熵是用来度量两个概率分布之间的差异的。交叉熵和香农熵都是信息论中的重要概念,它们之间有密切的关系。
2023-12-13 01:47:45 1591
原创 吃瓜教程Task1-补充
简而言之,验证集用于模型选择和调整,而测试集用于评估模型的最终泛化能力。正确的做法是只使用一次测试集来评估模型,确保评估的有效性和公正性。调和平均(Harmonic Mean)是一种平均数的计算方法,它是数据集的倒数的算术平均数的倒数。换句话说,如果你有一组数。,它们的调和平均数是 ( n ) 除以这些数倒数的总和。
2023-12-12 23:50:06 825
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人