自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Datawhale X 李宏毅苹果书 AI夏令营 第五期LeeDL task3

在神经网络模型的测试(推理)阶段,归一化处理通常会与训练阶段略有不同,尤其是对于批量归一化(Batch Normalization)这种依赖批次统计量的归一化方法。批量归一化是一种广泛应用的方法,用于对中间层的激活值进行归一化。- 使用训练期间的移动平均值和方差:在训练过程中,批量归一化会维护全局的移动平均值和方差,这些统计量是在所有训练批次上累积计算的。- 其他归一化方法:如层归一化、实例归一化、群归一化等,由于它们在训练和测试阶段的处理一致,测试阶段仍然对当前样本计算均值和方差进行归一化。

2024-09-03 22:34:57 923

原创 Datawhale X 李宏毅苹果书 AI夏令营 第五期LeeDL task2

在梯度下降里面,所有的参数都是设同样的学习率,这显然是不够的,应该要为每一个参数定制化学习率,即引入自适应学习率(adaptive learning rate)的方法,给每一个参数不同的学习率。可以使用AdaGrad, RMSProp和 Adam等方法进行。用一般的梯度下降训练,往往会在梯度还很大的时候,损失就已经降了下去,这个是需要特别方法训练的。要走到一个临界点其实是比较困难的,多数时候训练在还没有走到临界点的时候就已经停止了。

2024-08-31 23:56:01 107

原创 Datawhale AI夏令营第五期-CV task3学习笔记

用法:常用于目标检测任务,通过组合图像,可以模拟出不同大小和位置的目标,增加训练数据的多样性,提高模型对不同场景的鲁棒性。区别:直接修改图像内容,通过简单的复制粘贴方式来合成新样本,增加了图像内容的复杂性,但有时会引入不自然的边界。区别:主要涉及图像颜色的变化,不改变几何结构,只调整图像的视觉表现,适用于需要对光照不敏感的任务。区别:主要是几何变换,不改变图像内容,只改变视角和结构,增强模型对图像姿态变化的容忍度。区别:简单直接,只改变图像的镜像方向,增强方法较为基础,但在许多任务中依然有效。

2024-08-31 23:51:29 295

原创 Datawhale AI夏令营第五期-CV task2学习笔记

YOLOv8n("nano")是最小的变体,具有较少的参数和计算量。task2代码中给出了yolov8n和yolov8s两种模型,这两种模型是YOLOv8模型的两种变体。YOLOv8n 更适合实时应用或者资源受限的设备,例如移动设备或者嵌入式系统,因为它在速度和资源消耗上优化得更好。YOLOv8s 适合需要更高准确性的应用场景,同时能够容忍较高的计算资源消耗,例如在服务器或高性能计算环境中运行。YOLOv8s 能够更好地捕捉细节和处理复杂的场景,在目标检测任务中的精度会比 YOLOv8n 高。

2024-08-29 23:50:45 122

原创 Datawhale X 李宏毅苹果书 AI夏令营 第五期LeeDL task1

小批量的测试效果也更好,大的批量大小会让我们倾向于走到狭窄的最小值“峡谷”里面,而小的批量有很多的损失函数,更新方向比较随机,倾向于走到范围比较宽的最小值“盆地”里面。来判断,H是正定矩阵,则是局部极小值,H是负定矩阵,则是局部最大值,H特征值有正有负,则是鞍点。:每次在移动参数的时候,不是只往梯度的反方向来移动参数,而是根据梯度的反方向加上前一步移动的方向决定移动方向。在有考虑并行计算的时候,大的批量大小反而是较有效率的,一个回合大的批量花的时间反而是比较少的。在临界点的附近,损失函数可被近似为。

2024-08-27 23:45:00 227

原创 Datawhale AI夏令营第五期-CV task1学习笔记

1. 尝试在本地运行,但是始终遇到“ModuleNotFoundError: No module named 'ultralytics'”的报错,即使安装好相关库也始终未能解决,因而没有跑通。2. 尝试在厚德云GPU上运行,除了第一次运行遇到数据下载出错导致的报错以外,运行流畅,约20分钟完成,成绩0.0047834701569362。1. 了解代码和模型的含义:单纯跑通不了解模型,也不明白如何修改和提升效率。2. 了解评分机制:尝试在本地使用验证集进行测试。3. 尝试在本地跑通代码。

2024-08-26 23:31:58 124

原创 大模型理论基础打卡Task05

2023-12-15 23:54:10 376

原创 大模型理论基础打卡Task04

2023-12-15 23:53:18 330

原创 大模型理论基础打卡Task03

2023-12-14 21:38:41 380 1

原创 大模型理论基础打卡Task01

2023-12-13 22:22:40 349 1

原创 大模型理论基础Task02-打卡

2023-12-13 22:21:07 374 1

原创 大模型理论基础Task02-补充

几何平均数和算术平均数是两种不同的统计方法,用于表达一组数的“平均”水平,但它们的计算方法和应用场景有所不同。算术平均数(Arithmetic Mean):几何平均数(Geometric Mean):​应用:用于不同数量级的数值,常用于分析比率、增长率等,如投资回报率。区别:“困惑度可以被理解为每个标记的分支因子” 这句话是在将困惑度(Perplexity)的概念类比于分支因子,主要用于自然语言处理(NLP)中,特别是在语言模型的评估中。让我们分步来理解这个陈述:困惑度(Perplexity)的定

2023-12-13 15:03:05 836

原创 大模型理论基础Task01-补充

这就是说交叉熵的值至少和熵一样大,通常是更大的。之间的一个重要关系,具体来说,是交叉熵的值不小于熵的值。这个属性源自信息论中的一些基本概念,特别是相对熵(也称为KL散度)的概念。:如前所述,香农熵是用来量化一个随机变量的不确定性的。一个随机变量的香农熵越高,意味着它的不确定性越大,即它提供的信息量越多。总的来说,交叉熵和香农熵在概念上是紧密相连的,它们都与衡量信息的不确定性和差异有关。:交叉熵是用来度量两个概率分布之间的差异的。交叉熵和香农熵都是信息论中的重要概念,它们之间有密切的关系。

2023-12-13 01:47:45 905

原创 吃瓜教程Task1-补充

简而言之,验证集用于模型选择和调整,而测试集用于评估模型的最终泛化能力。正确的做法是只使用一次测试集来评估模型,确保评估的有效性和公正性。调和平均(Harmonic Mean)是一种平均数的计算方法,它是数据集的倒数的算术平均数的倒数。换句话说,如果你有一组数。,它们的调和平均数是 ( n ) 除以这些数倒数的总和。

2023-12-12 23:50:06 811

原创 吃瓜教程打卡Task01

2023-12-12 23:39:58 336

大模型理论基础打卡Task05

大模型理论基础打卡Task05

2023-12-15

大模型理论基础打卡Task04

大模型理论基础打卡Task04

2023-12-15

大模型理论基础打卡Task03

大模型理论基础打卡Task03

2023-12-14

大模型理论基础打卡Task01

大模型理论基础打卡Task01

2023-12-13

大模型理论基础Task02-打卡

大模型理论基础Task02-打卡

2023-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除