DataWhale深度强化学习基础学习-Task1心得

最新推荐文章于 2024-07-16 16:21:57 发布

DeBut_Alfredo

最新推荐文章于 2024-07-16 16:21:57 发布

阅读量844

点赞数 15

分类专栏：学习机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/DeButAlacatraz/article/details/134985223

版权

学习机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

学习第一章：强化学习基础；链接：
第一章强化学习基础 (datawhalechina.github.io)

第一章《强化学习基础》主要介绍了强化学习的基本概念、特点和算法框架。通过学习这一章节，可以对强化学习的工作原理和应用领域有一个初步的理解。

作为建筑学专业在读的学生，我思考了强化学习与我的研究相结合，从以下几个方面考虑：

设计优化：利用强化学习的算法来优化建筑设计，比如能效、空间利用率或者构造成本。
仿真模拟：在建筑环境模拟中应用强化学习，模拟人流动线、疏散路线或者光照条件等。
智能建筑管理：通过强化学习优化建筑的能源管理系统，比如调节温度、湿度和光照，以提高舒适度和能源效率。
历史建筑保护：利用强化学习分析历史建筑的结构特点，提出保护和修复方案。

插曲：学习中有大佬打了个十分生动的比方——“深度学习类似于眼睛，负责接收和处理信息（例如图像和声音），并能够识别和分类这些信息。而强化学习则像大脑，它不仅处理来自深度学习的信息，还结合奖励机制来做出决策。这个决策取决于特定的目标或“奖励函数”，例如在不同工作态度下的行为选择。”这个比喻强调了两者在智能系统中的互补作用，深度学习提供数据识别和分类能力，而强化学习提供基于目标的决策制定能力。说明了深度学习和强化学习在数据处理和决策过程中的不同作用。

第一章的一些感受：

基本结构：强化学习的基本结构包括代理（Agent），环境（Environment），以及它们之间的交互。代理根据从环境接收的状态信息做出动作，环境根据这些动作给出下一个状态和奖励。
训练难度：强化学习比监督学习更困难，因为它通常没有明确的训练数据集。代理必须通过与环境的交互来学习，这涉及到探索（尝试新动作）和利用（使用已知的最佳动作）的平衡。
基本特征：强化学习的特征包括延迟奖励、探索与利用的平衡、以及策略的持续学习和调整。
发展原因：近年来强化学习发展迅速，主要是由于计算能力的增强、大数据的可用性，以及算法创新，如深度学习技术的结合。
状态和观测：状态是环境的完整描述，而观测是代理能够感知的状态的部分或不完全信息。在某些情况下，观测可能不足以完全确定环境的当前状态。
组成：一个强化学习智能体通常由策略（决定动作的规则）、价值函数（评估状态或动作的好坏）和模型（环境的表示）组成。
分类：强化学习智能体可以分为基于价值的智能体、基于策略的智能体和结合这两者的智能体。
策略迭代与价值迭代：基于策略迭代的方法直接寻找最优策略，而基于价值迭代的方法首先估计状态或动作的价值，然后基于这些价值来确定策略。
有模型与免模型学习：有模型学习知道或学习环境的模型，用来预测未来状态和奖励；免模型学习不需要这种模型，直接从与环境的交互中学习。
通俗理解：强化学习像是训练一个宠物：通过奖励和惩罚来引导它做出正确的动作，这个过程中它学会如何根据不同的情境作出最佳决策。

学习第二章：马尔可夫决策过程；链接：第二章马尔可夫决策过程 (MDP) (datawhalechina.github.io)

第2章《马尔可夫决策过程》介绍了强化学习中的一个核心概念：马尔可夫决策过程（MDP）。MDP是理解和实现强化学习算法的基础，它通过状态（State）、动作（Action）、奖励（Reward）和策略（Policy）等元素来描述一个决策问题。感觉可以将MDP应用于例如建筑设计优化、能源管理和空间规划等问题。通过定义建筑环境的不同状态和可能的动作，以及这些动作带来的奖励，可以训练模型以找到最优的决策路径，从而提高设计效率、节约能源或改善空间布局。

第二章的一些感受：

折扣因子：在马尔可夫奖励过程中使用折扣因子是为了处理未来奖励的不确定性和确保总奖励的有限性。折扣因子使得更远未来的奖励对当前决策的影响降低。
贝尔曼方程解难求：矩阵形式的贝尔曼方程解析解难求得，因为它涉及到大规模的动态规划问题，计算复杂度很高，尤其是在状态空间很大时。
贝尔曼方程的计算方法：常见方法包括动态规划、蒙特卡罗方法和时间差分学习。动态规划适用于已知模型的情况，蒙特卡罗方法不依赖模型，时间差分学习结合了前两者的特点。
MRP与MDP区别：马尔可夫奖励过程（MRP）只考虑状态和奖励，而马尔可夫决策过程（MDP）还包括动作和策略。
状态转移的差异：MDP中的状态转移考虑了代理的动作选择，而MRP仅描述状态之间的转移概率，不涉及动作。
寻找最佳策略的方法：寻找最佳策略的方法包括价值迭代、策略迭代和Q学习等。这些方法通过不同方式估计或直接寻找最优策略。