强化学习输入数据归一化（标准化）

最新推荐文章于 2025-02-05 16:52:50 发布

Coder_Jh

最新推荐文章于 2025-02-05 16:52:50 发布

阅读量2.8k

点赞数

文章标签：计算机视觉人工智能算法

本文链接：https://blog.csdn.net/qq_31239371/article/details/132792632

版权

对于强化学习，其输入数据一般是指状态以及动作。关于它们的归一化（标准化）操作，可以总结如下：

1.若输入状态是图像或者包含图像，那么针对图像信息，常见的归一化方式是除以255，效果与减去均值，除以方差的效果接近

2.若输入是普通的数值（非图像），归一化的方式为：每一次训练前对经验池所有的数据算固定的均值和方差来做为本次训练的唯一归一化参数。相关链接：强化学习需要批归一化(Batch Norm) 或归一化吗？ - 知乎

除此之外，还看到另一种方式：在训练开始前，用随机动作与环境交互数个回合，然后用这个过程中获得的状态信息去计算均值和方差来做为本次训练的唯一归一化参数。

3.对于动作来说：在动作空间是连续的情况下，一个设计得好的环境，其 action 的均值方差最好接近0和1。要做到这点非常容易，例如我将动作空间定为 -1到 1。相关链接：强化学习需要批归一化(Batch Norm) 或归一化吗？ - 知乎

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Coder_Jh

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深度强化学习算法是否需要使用批归一化(Batch Norm) 或归一化，文本带你详解。

丨汀、的博客

07-15

1978

深度强化学习算法是否需要使用批归一化(Batch Norm) 或归一化，文本带你详解。

深度学习笔记——归一化、正则化

haopinglianlian的博客

11-21

2380

本笔记介绍深度学习中常见的归一化、正则化。

1 条评论您还未登录，请先登录后发表或查看评论

归一化 （Normalization）、标准化 （Standardization）和中心化/零均值化（Zero-centered）

北漂人家

07-03

5994

归一化：１）把数据变成(０，１)或者（1,1）之间的小数。主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。２）把有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加...

【大模型LLM面试合集】训练数据_数据格式

最新发布

chen695969的博客

02-05

1345

在这个示例中，（1代表正例，0代表负例）。每一行代表一个样本，第一列是输入数据，第二列是对应的标签。需要注意的是，具体的数据集格式可能会因任务类型、数据来源和使用的深度学习框架而有所不同。因此，在进行SFT训练时，建议根据具体任务和框架的要求来定义和处理数据集格式。

强化学习算法实现小结

wxq的博客

09-12

1481

Q learning 主要就是选择动作和更新Q表两个函数。选择动作就是选Q表中当前状态Q值最大的动作，用np.argmax就能返回值最大元素的下标。 Q表使用defaultdict字典类型建立，一级索引state得到该状态下所有动作的Q值，二级索引action得到该状态该动作的Q值。 from collections import defaultdict self.Q_table = defaultdict(lambda: np.zeros(self.action_dim)) Q表的更新：Q

深度学习：输入数据归一化的理解

DU_YULIN的博客

10-05

1149

文章目录输入数据归一化的理解参考输入数据归一化的理解今天复习了深度学习的基本流程：数据处理，网络模型设计，训练配置，训练过程（优化模型参数：权重、偏置、超参数），预测过程。其中有一段介绍梯度更新，即梯度下降法更新权重和偏置，需要用到更新步长，也就是我们所说的学习率。数据归一化，保持输入数据尺度一致，其中一个好处就是在梯度更新阶段使用统一的学习率来进行梯度更新更加合理，说实话，之前都没有考虑到这方面，所以这个分享下。数据归一化通常意义：将不同尺度（量纲）的数据进行统一，使数据范围在同一尺度，比如【

强化学习调试经验（二）

senjie_wang的博客

03-13

1672

坑一有点荒唐的是，对于训练一个强化学习的模型，我们往往需要用到随机数以此来实现随机探索。而有相关实验证明，随机数种子会影响整个网络模型的收敛。在使用同样的超参数和网络模型下，采用不同的随机数种子进行独立实验，你会惊讶的发现，只有70%左右的实验会效果较好，而其余的训练会挂掉。坑二在进行强化学习时，对于输入向量我们需要进行归一化，否则在AC算法中，有可能会出现值溢出（造成网络输出为nan值）的...

深度学习-归一化输入，梯度消失爆炸，梯度检验

qq_45906101的博客

12-16

846

深度学习-归一化输入，梯度消失爆炸，梯度检验

深度学习中的归一化方法详解

介绍AI领域相关知识

11-24

1363

在深度学习中，归一化（Normalization）是一种关键的技术，它通过调整数据的分布，使得模型训练更加稳定、高效。归一化方法可以应用于输入数据、隐藏层激活值、甚至权重参数。归一化的主要作用有加速模型收敛（减少训练过程中的梯度消失或爆炸问题）、稳定训练过程（缓解内部协变量偏移问题）以及提高模型性能（增强模型的泛化能力，防止过拟合）。

PyTorch深度学习实战（8）——批归一化

盼小辉丶的博客

08-02

5762

批归一化( Batch Normalization )是一种常用的神经网络优化技术，用于在神经网络的训练过程中对每批输入进行归一化操作。它的主要目的是缓解梯度消失或梯度爆炸的问题，并且加速模型的收敛。在本节中，首先介绍批归一化的基本原理，然后通过实验观察其在网络训练过程中的重要作用。

深度学习中数据到底要不要归一化？实测数据来说明！

qq_41387508的博客

08-03

4364

在做超分这种回归类的模型时候，对于数据要不要做标准化预处理，网上也没个专业的说法，令人头大。 CV里面一般的图像都是0-255的范围，这个比较好处理了，不好进行标准化就直接除以255进行归一化，但是在其他领域的话，有时候数据集的极差比较大，比如降雨这种。那么，在深度学习中处理图像数据的时候，到底要不要对数据进行标准化？下面记录一些自己的实验。测试按照控制变量法的原理来做，其他的参数都不进行调整，只调整2个部分：是否对输入数据（X）做标准化？是否在网络中加入BN层？模型使用FSRCNN（之

【MIT博士论文】数据高效强化学习

数据派THU

07-12

302

来源：专知本文为论文介绍，建议阅读5分钟本周重要论文包括：CVPR 2022各种获奖论文。强化学习(Reinforcement learning, RL)是一种学习复杂决策策略的通用而强大的解决方案，为游戏和机器人等多个领域的近期成功提供了关键的基础。然而，许多最先进的算法需要大量的数据，计算成本很高，需要大量的数据才能成功。虽然这在某些情况下是可能的，例如在可用数据稀...

强化学习奖励函数的归一化

yuuyy123的博客

07-09

955

将每个奖励分量进行归一化，然后再分配权重。

深度学习中常见的四种数据标准化方法详细解读（StandardScaler、MinMaxScaler、RobustScaler、MaxAbsScaler）

Next_SummerAgain的博客

08-05

3235

最近，本人在优化深度神经网络模型时发现为了减少预测标签值和真实标签值之间差距，不仅仅需提高模型本身的性能，还关乎于标签值标准化、数据集划分、模型超参数等一系列初始设定。其中后两项的实验内容俗称“炼丹”，很多研究人员已经炉火丹青，运筹帷幄，唯独标签值标准化容易被人忽略。一个优秀的标准化方法不仅能提高模型训练的稳定性，加速收敛，还能增强模型测试性能，可谓是中流砥柱。现有模型训练大多默认选用 StandardScaler()，这本没错，但是如果能够参考标签值分布尝试其他方法，并修改为适合的激活函数。

离线强化学习总结！(原理、数据集、算法、复杂性分析、超参数调优等）

weixin_40920183的博客

05-26

5602

来源知乎，作者丨旺仔搬砖记由于内容过长，本文仅展示部分内容，完整系列请查阅博客：https://www.zhihu.com/column/c_1487193754071617536离线强化学习（Offline RL）作为深度强化学习的子领域，其不需要与模拟环境进行交互就可以直接从数据中学习一套策略来完成相关任务，被认为是强化学习落地的重要技术之一。本文详细的阐述了...

强化学习+数据库简单小结

小蚂蚁与大象

07-20

1233

基本思想我们尝试了RL中最经典的Qlearning和DQN模型，但这两种方法都未能解决高维空间(数据库状态，knobs组合)和连续动作(连续knobs)的问题。此外，作为RL的灵魂，奖励函数(rewardfunction,RF)的设计至关重要，直接影响模型的效率和质量。接下来，我们将展示如何调整蒙特卡洛树搜索(MCTS)，这是一种流行的RL技术，不需要显式地表示整个状态/动作空间[14]，以解决可伸缩性的挑战。Action是旋钮调优操作，在CDB对应的状态下，CDB根据最新的策略执行相应的动作。...

深度强化学习中数据可视化及论文级绘图方法

weixin_43252352的博客

07-23

2081

Tensorboard是机器学习中最常用的可视化工具之一，它不但可以用于模型训练及测试中过程可视化，甚至可以直接用于论文的插图。充分发挥tensorboard的功能，可以事半功倍。 reference： https://pytorch.org/docs/stable/tensorboard.html https://zhuanlan.zhihu.com/p/103630393 ...

强化学习时怎么进行数据管理？

weixin_41577042的博客

12-19

457

# 强化学习分为on-policy和off-policy。从数据的角度来说，不同之处就在于数据是不是一次性的，对于on-policy就是一次性的，用完就扔，对于off-poilcy来说就是有一个大buffer来存放数据，用了一次还可以再用很多次。那么数据如何有效方便存储就是一个问题。使用deque,dataset,dict存储数据。

强化学习的实战经验：从数据收集到模型优化

AI天才研究院

12-31

1302

1.背景介绍 强化学习(Reinforcement Learning, RL)是一种人工智能技术，它通过在环境中执行动作来学习如何取得最大化的奖励。在过去的几年里，强化学习已经取得了显著的进展，并在许多领域得到了广泛应用，如游戏、机器人控制、自动驾驶、推荐系统等。然而，强化学习仍然面临着许多挑战，如数据收集、模型优化等。在本篇文章中，我们将从数据收集到模型优化的各个方面进行深入探讨，揭示强化...

CNN标准化还是归一化

01-16

### CNN中的标准化与归一化 #### 定义区分在卷积神经网络(CNN)中，标准化和归一化都是预处理步骤的重要组成部分，旨在改善模型训练效率并提高最终预测准确性。然而二者有着本质的区别。 - **归一化**通常指的是将输入数据缩放到特定范围内的过程，最常见的是[0,1]区间。这可以通过简单的线性变换实现，即\(X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}\)。这种做法有助于加速收敛速度，并使得不同特征具有相似尺度从而避免某些维度主导损失函数计算[^1]。 - **标准化**(Standardization)，也称为Z-score normalization，则是指调整数值分布使其均值接近零而标准差等于单位长度的过程；具体公式为\(X_{std}=\frac{X-\mu}{\sigma}\)，其中μ表示样本集合的平均数σ代表其标准偏差。此方法特别适用于那些假设输入服从正态分布的学习算法，在图像识别领域内可以增强对比度帮助提取更有效的视觉模式[^2]。 #### 应用场景分析对于CNN而言： - 当面对色彩空间转换、光照变化等问题时，采用归一化技术能够有效减少这些因素带来的负面影响，使每张图片都处于相同的亮度水平下进行比较； - 如果目标是去除噪声干扰或是希望突出显示物体边缘轮廓等细节信息，则应该优先考虑实施标准化操作来强化信号强度差异[^3]。此外值得注意的是，在实际应用过程中往往不是单独使用某一种方式而是结合两者优势共同作用于同一套数据集之上以达到最佳效果。例如先做全局直方图均衡再接续局部响应规范化层(LRN)[^4]。 ```python import numpy as np def normalize(data): """Min-Max scaling""" data_normalized = (data - np.min(data)) / (np.max(data) - np.min(data)) return data_normalized def standardize(data): """Z-Score Standardization""" mean = np.mean(data) std_deviation = np.std(data) standardized_data = (data - mean) / std_deviation return standardized_data ```