- 博客(63)
- 收藏
- 关注
原创 TD error(时序差分误差)的总结
TD error(Temporal-Difference Error,时序差分误差)是强化学习中用于评估状态价值预测准确性的核心指标。其本质是当前时刻对收益的预测值与更优的“目标值”之间的差异,驱动模型更新价值函数以逼近真实价值。
2026-01-13 10:57:30
417
原创 Django里面,多个APP的url怎么设置
路径分发:通过include()将子路径分发到对应APP的urls.py,如path('app1/', include('app01.urls'))。1、在每个APP目录下创建独立的urls.py文件(如app01/urls.py、app02/urls.py)。命名空间:使用app_name为每个APP的URL分组(如app_name='app01'),避免路由冲突。版本兼容性:Django 2.x/3.x推荐使用path()和re_path()代替旧版的url()。优点:逻辑清晰,便于维护;
2025-12-23 10:25:48
228
原创 os.path.dirname()用法
的绝对路径(完整路径),包括文件名。,最终获取到脚本所在目录的上一级目录路径,即项目的根目录。从路径中提取目录部分。
2025-12-17 14:59:03
286
原创 Actor-Critic算法简介
:Actor基于当前策略选择动作并执行,Critic则根据环境反馈评估该动作的好坏,生成优势函数来指导Actor的策略更新。用Python实现一个简单的Actor-Critic模型来训练智能体解决CartPole平衡问题。:广泛应用于机器人控制、游戏AI、能源管理等领域,特别适合动作空间复杂、需要精细控制的场景。Actor-Critic算法是一种结合了策略梯度和价值函数优点的强化学习方法。
2025-11-26 15:15:22
306
原创 新版本 Gym 中,渲染模式设置
:如果遇到渲染问题,尝试升级 gym 库到最新版本,并检查系统图形显示支持。模式会显著降低训练速度,建议仅在需要观察时使用;在新版本 Gym 中,需要在创建环境时通过。模式更灵活,可在关键训练阶段调用显示。:返回 RGB 数组,适合自定义渲染。:直接在显示器上显示画面。(适合观察训练过程)(适合特定阶段观察)
2025-11-24 17:00:38
182
原创 TensorFlow框架创建张量,输出形状显示为“None“的问题
:这种设计允许模型在训练和推理阶段接受不同批量大小的输入。训练时可能使用批量大小为32,而预测时可能单条处理(批量大小为1),无需重新构建模型。表示该维度在模型构建时尚未确定,实际训练时会根据输入的批量大小动态填充。例如当输入批量数据形状为(64,240,32,32,3)时,层创建的张量包含批量维度占位符,实际数值会在数据流经模型时由具体输入数据决定。:神经网络通常以批次(batch)形式处理数据,位置代表批量大小(batch_size)的占位符。定义的是单个样本的维度结构,而输出形状中的。
2025-10-13 15:13:37
244
原创 在强化学习中,DQN网络是否需要卷积层和池化层?
在强化学习中,DQN(Deep Q-Network)的网络结构是否包含卷积层和池化层,取决于输入数据的类型和任务需求。,但在经典实现中(如处理Atari游戏图像时),池化层通常被省略,而卷积层的使用则有明确目的。
2025-09-12 10:14:36
703
原创 tensorflow框架加载训练好的模型,冻结最后一层网络,继续添加新的卷积神经网络
这段代码展示了如何加载ResNet50预训练模型,冻结其所有权重,然后添加新的全局池化层、全连接层和输出层。最后编译模型准备进行新任务的训练。上述代码会加载你的自定义模型,冻结其权重,移除原输出层后添加新的分类层。注意替换模型路径和调整输入/输出尺寸。加载保存的.h5或SavedModel格式模型。要加载自己训练的CNN模型替代ResNet50,你需要使用。
2025-06-27 08:28:51
422
原创 with tf.GradientTape() as tape:用法简介
代码创建了模拟数据,定义了可训练变量,在训练循环中使用GradientTape记录计算图并计算梯度,最后更新模型参数。是 TensorFlow 中的一个上下文管理器,用于自动记录计算图中的梯度信息。以下是使用tf.GradientTape()的完整示例,展示如何训练一个简单的线性回归模型。:通过这个机制,TensorFlow可以自动计算变量的梯度,无需手动推导数学公式。块内执行的所有TensorFlow操作都会被自动记录,用于后续的梯度计算。
2025-06-25 17:17:01
483
原创 tensorflow框架如何自定义损失函数
两种方式都可以直接用于model.compile(),与内置损失函数用法相同。根据需求复杂度选择合适的方式即可。通过Python函数定义损失计算逻辑,函数需接受y_true和y_pred参数。这个Huber损失在误差较小时使用平方误差,较大时使用线性误差。该示例创建了加权MSE损失,正样本误差权重加倍。1、函数式自定义(推荐)
2025-06-17 09:32:53
332
原创 猫狗识别二分类识别中,TensorFlow框架最后一层卷积神经网络如何设置
该配置包含展平操作、全连接层和dropout正则化,最终通过sigmoid输出二分类结果12。实际应用中可根据数据规模调整全连接层神经元数量。
2025-06-16 15:49:58
300
原创 图像二分类任务推荐使用Sigmoid函数
。Softmax函数可以将多个类别的输出转换成概率分布,适合多分类任务。在二分类任务中,虽然可以使用Softmax,但它会生成两个输出值(每个类别的概率),这通常更适合多分类任务。相比之下,Sigmoid函数更适合二分类任务,因为它只需一个输出值即可描述两类的概率。
2025-06-12 11:17:13
920
原创 torch.zeros()用法简介
通过灵活调整参数,可满足不同维度和数据类型的零张量需求。仅分配内存,内容未初始化(可能含随机值)。会显式初始化所有元素为0,而。
2025-05-30 08:48:02
912
原创 np.random.normal()用法简介
是NumPy库中用于生成正态分布(高斯分布)随机数的函数。该函数广泛用于统计分析、机器学习中的数据生成和模拟实验。
2025-05-30 08:30:18
1396
原创 设置随机数种子的作用
这是一个常用示例值(源自《银河系漫游指南》),实际开发中可用任意整数。种子相同则每次运行生成的随机序列完全相同。,目的是保证程序运行时生成的。这三行代码的作用是。随机数具有可重复性。
2025-05-28 11:08:13
544
原创 Q网络(Q-Network)简介
在强化学习(Reinforcement Learning, RL)中, 是深度Q学习(Deep Q-Learning, DQN)算法的核心组件,用于近似。
2025-05-23 14:30:10
1113
原创 batch_size(批大小)核心作用和设置建议
在TensorFlow训练模型中,batch_size(批大小)是一个关键的超参数,它决定了每次迭代时用于计算梯度并更新权重的样本数量。以下是它的核心作用和设置建议:nvidia-smi:batch_size会影响一个epoch的迭代次数(总样本数/batch_size),需确保最后一个batch的样本数不足时正确处理(参数)。
2025-05-15 12:13:31
1283
原创 深度可分离卷积简介
深度可分离卷积(Depthwise Separable Convolution)是一种将标准卷积分解为两步操作的高效计算方式,旨在减少模型的参数量和计算量,同时保持特征提取能力。其核心思想是通过分离空间维度和通道维度的相关性,优化卷积过程。
2025-05-07 10:48:42
1288
原创 ImageDataGenerator ()用法简介
是 Keras 中用于图像数据增强和预处理的工具。它允许你实时生成增强的图像数据,这在训练深度学习模型时特别有用,因为它可以帮助提高模型的泛化能力。以下是。
2025-04-29 16:14:42
1123
原创 深度学习中的正则化简介
:正则化是深度学习模型训练不可或缺的工具,通过限制模型复杂度,显著提升泛化能力,但需根据任务需求合理选择方法并调优参数。L1正则化可用于特征选择(稀疏性)验证集损失不再下降时提前终止训练。
2025-04-28 10:26:30
991
原创 os.path.sep简介
功能:获取系统路径分隔符,避免跨平台开发时路径硬编码问题。返回值:Windows 下为\\,Unix/Linux/macOS 下为。
2025-04-25 11:18:09
336
原创 os.path.join() 简介
os.path.join() 是 Python 标准库os.path模块提供的路径拼接函数,主要用于将多个路径组件合并为一个完整的路径字符串。
2025-04-23 11:04:35
698
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅