samprasyuan-CSDN博客

原创 Datawhale - JoyRL学习笔记 03 深度强化学习基础

深度强化学习是一种将强化学习的决策能力与深度学习的特征提取能力结合的先进技术，为解决复杂问题提供了新途径。这篇博客旨在深入探讨深度强化学习的核心要素，并提供更丰富的细节。

2023-11-21 00:24:01 55

原创 Datawhale - JoyRL学习笔记 02

环境未知的情况，直接学习特定状态下执行特定动作的价值或优化策略，不需要建立预测环境动态的模型。：使用一个表格来存储每个状态和动作对应的Q值。例如，在一个网格环境中，表格的每行代表一个状态，每列代表一个可能的动作。：n步时序差分方法是时序差分方法的拓展，它调整向前自举的步数（n），以平衡蒙特卡洛方法和时序差分方法的特点。：与Q-learning相似，但在更新Q值时使用的是下一个实际采取的动作的Q值，而非最大Q值。：Q-learning更新公式基于当前奖励和下一个状态的最大Q值来更新当前状态动作对的Q值。

2023-11-19 00:10:16 39

原创 DatawhaleJoyRL学习笔记 01

多智能体强化学习：涉及多个智能体在环境中的交互。从数据中学习：包括模仿学习、逆强化学习、从人类反馈中学习等。探索策略：如何在探索未知和利用已知之间做出平衡。实时环境：解决智能体在实时环境中的决策问题，如自动驾驶、机器人等。多任务强化学习：智能体需要同时解决多个任务。马尔可夫决策过程是一个数学框架，用于描述在不确定环境中的决策制定。在MDP中，智能体（agent）通过与环境（environment）的交互学习如何达成目标。

2023-11-15 19:37:48 50 1

原创《Python核心技术与实战》学习笔记 Day 01

Python核心技术与实战学习笔记

2023-01-07 23:09:13 180 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Datawhale - JoyRL学习笔记 03 深度强化学习基础

原创 Datawhale - JoyRL学习笔记 02

原创 DatawhaleJoyRL学习笔记 01

原创 《Python核心技术与实战》学习笔记 Day 01

空空如也

空空如也

原创《Python核心技术与实战》学习笔记 Day 01