高斯的手稿0801-CSDN博客

原创 TD error（时序差分误差）的总结

TD error（Temporal-Difference Error，时序差分误差）是强化学习中用于评估状态价值预测准确性的核心指标。其本质是当前时刻对收益的预测值与更优的“目标值”之间的差异，驱动模型更新价值函数以逼近真实价值。

2026-01-13 10:57:30 417

原创 Django里面，多个APP的url设置，每个APP单独对应HTML设置

1、项目根目录 urls.py。

2025-12-23 10:43:29 275

路径分发‌：通过include()将子路径分发到对应APP的urls.py，如path('app1/', include('app01.urls'))。1、在每个APP目录下创建独立的urls.py文件（如app01/urls.py、app02/urls.py）。命名空间‌：使用app_name为每个APP的URL分组（如app_name='app01'），避免路由冲突。版本兼容性‌：Django 2.x/3.x推荐使用path()和re_path()代替旧版的url()。优点‌：逻辑清晰，便于维护；

2025-12-23 10:25:48 228

原创 os.path.dirname(）用法

的绝对路径（完整路径），包括文件名。，最终获取到脚本所在目录的上一级目录路径，即项目的根目录。从路径中提取目录部分。

2025-12-17 14:59:03 286

原创 Actor-Critic算法简介

‌：Actor基于当前策略选择动作并执行，Critic则根据环境反馈评估该动作的好坏，生成优势函数来指导Actor的策略更新。用Python实现一个简单的Actor-Critic模型来训练智能体解决CartPole平衡问题。‌：广泛应用于机器人控制、游戏AI、能源管理等领域，特别适合动作空间复杂、需要精细控制的场景。Actor-Critic算法是一种结合了策略梯度和价值函数优点的强化学习方法。

2025-11-26 15:15:22 306

原创新版本 Gym 中，渲染模式设置

‌：如果遇到渲染问题，尝试升级 gym 库到最新版本，并检查系统图形显示支持。模式会显著降低训练速度，建议仅在需要观察时使用；在新版本 Gym 中，需要在创建环境时通过。模式更灵活，可在关键训练阶段调用显示。‌：返回 RGB 数组，适合自定义渲染。‌：直接在显示器上显示画面。‌（适合观察训练过程）‌（适合特定阶段观察）

2025-11-24 17:00:38 182

原创 TensorFlow框架创建张量，输出形状显示为“None“的问题

‌：这种设计允许模型在训练和推理阶段接受不同批量大小的输入。训练时可能使用批量大小为32，而预测时可能单条处理(批量大小为1)，无需重新构建模型。表示该维度在模型构建时尚未确定，实际训练时会根据输入的批量大小动态填充。例如当输入批量数据形状为(64,240,32,32,3)时，层创建的张量包含批量维度占位符，实际数值会在数据流经模型时由具体输入数据决定。‌：神经网络通常以批次(batch)形式处理数据，位置代表批量大小(batch_size)的占位符。定义的是单个样本的维度结构，而输出形状中的。

2025-10-13 15:13:37 244

原创 deque的maxlen参数如何使用

deque的maxlen。

2025-10-13 11:11:24 282

原创在强化学习中，DQN网络是否需要卷积层和池化层？

在强化学习中，DQN（Deep Q-Network）的网络结构是否包含卷积层和池化层，取决于输入数据的类型和任务需求。‌‌，但在经典实现中（如处理Atari游戏图像时），池化层通常被省略，而卷积层的使用则有明确目的。

2025-09-12 10:14:36 703

原创 np.argmax()函数的作用

是NumPy库中的一个核心函数，主要用于。

2025-09-12 09:45:24 503

原创 tensorflow框架加载训练好的模型，冻结最后一层网络，继续添加新的卷积神经网络

这段代码展示了如何加载ResNet50预训练模型，冻结其所有权重，然后添加新的全局池化层、全连接层和输出层。最后编译模型准备进行新任务的训练。上述代码会加载你的自定义模型，冻结其权重，移除原输出层后添加新的分类层。注意替换模型路径和调整输入/输出尺寸。加载保存的.h5或SavedModel格式模型。要加载自己训练的CNN模型替代ResNet50，你需要使用。

2025-06-27 08:28:51 422

原创 with tf.GradientTape() as tape:用法简介

代码创建了模拟数据，定义了可训练变量，在训练循环中使用GradientTape记录计算图并计算梯度，最后更新模型参数。是 TensorFlow 中的一个上下文管理器，用于自动记录计算图中的梯度信息。以下是使用tf.GradientTape()的完整示例，展示如何训练一个简单的线性回归模型。‌：通过这个机制，TensorFlow可以自动计算变量的梯度，无需手动推导数学公式。块内执行的所有TensorFlow操作都会被自动记录，用于后续的梯度计算。

2025-06-25 17:17:01 483

原创 tensorflow框架如何自定义损失函数

两种方式都可以直接用于model.compile()，与内置损失函数用法相同。根据需求复杂度选择合适的方式即可。通过Python函数定义损失计算逻辑，函数需接受y_true和y_pred参数。这个Huber损失在误差较小时使用平方误差，较大时使用线性误差。该示例创建了加权MSE损失，正样本误差权重加倍。1、函数式自定义（推荐）

2025-06-17 09:32:53 332

原创猫狗识别二分类识别中，TensorFlow框架最后一层卷积神经网络如何设置

该配置包含展平操作、全连接层和dropout正则化，最终通过sigmoid输出二分类结果12。实际应用中可根据数据规模调整全连接层神经元数量。

2025-06-16 15:49:58 300

原创卷积层，池化层，全连接层哪个参数多？

在卷积神经网络（CNN）中，‌‌。

2025-06-16 15:45:07 403

原创图像二分类任务推荐使用Sigmoid函数‌

‌‌。Softmax函数可以将多个类别的输出转换成概率分布，适合多分类任务。在二分类任务中，虽然可以使用Softmax，但它会生成两个输出值（每个类别的概率），这通常更适合多分类任务。相比之下，Sigmoid函数更适合二分类任务，因为它只需一个输出值即可描述两类的概率‌。

2025-06-12 11:17:13 920

原创二维张量dim=1

在PyTorch中处理二维张量（矩阵）时，‌dim=1‌，也就是逐行处理每一行的所有列元素。

2025-06-11 09:49:44 1396

原创 optimizer.zero_grad()用法

是 PyTorch 中优化器（Optimizer）的关键方法，用于清空模型参数的梯度。

2025-05-30 11:17:30 739

原创 random.randint()用法

是Python标准库random模块中用于生成指定范围内随机整数的函数。

2025-05-30 08:59:24 2057

原创 torch.zeros()用法简介

通过灵活调整参数，可满足不同维度和数据类型的零张量需求。仅分配内存，内容未初始化（可能含随机值）。会显式初始化所有元素为0，而。

2025-05-30 08:48:02 912

原创 np.random.normal(）用法简介

是NumPy库中用于生成正态分布（高斯分布）随机数的函数。该函数广泛用于统计分析、机器学习中的数据生成和模拟实验。

2025-05-30 08:30:18 1396

原创 torch.argmax（）简介

是PyTorch中用于获取。

2025-05-29 10:43:49 546

原创设置随机数种子的作用

这是一个常用示例值（源自《银河系漫游指南》），实际开发中可用任意整数。种子相同则每次运行生成的随机序列完全相同。‌，目的是保证程序运行时生成的。这三行代码的作用是‌。随机数具有可重复性。

2025-05-28 11:08:13 544

原创 Q网络（Q-Network）简介

在强化学习（Reinforcement Learning, RL）中，‌‌ 是深度Q学习（Deep Q-Learning, DQN）算法的核心组件，用于近似‌‌。

2025-05-23 14:30:10 1113

原创 PyTorch 中unsqueeze(-1)用法

‌后添加新维度。（等价于。

2025-05-23 12:08:29 704

原创 np.linspace() 简介

是 NumPy 库中的一个函数，用于生成‌‌。

2025-05-23 12:02:30 1472

原创比较两个用于手写体识别的卷积神经网络（CNN）模型

要比较两个用于手写体识别的卷积神经网络（CNN）模型，可以从以下 ‌。

2025-05-19 17:39:34 627

原创 batch_size（批大小）核心作用和设置建议

在TensorFlow训练模型中，batch_size（批大小）是一个关键的超参数，它决定了每次迭代时用于计算梯度并更新权重的样本数量。以下是它的核心作用和设置建议：‌‌nvidia-smi‌‌：batch_size会影响一个epoch的迭代次数（总样本数/batch_size），需确保最后一个batch的样本数不足时正确处理（参数）。

2025-05-15 12:13:31 1283