Datawhale深度强化学习基础学习-Task2心得

最新推荐文章于 2024-08-14 15:20:01 发布

DeBut_Alfredo

最新推荐文章于 2024-08-14 15:20:01 发布

阅读量847

点赞数 16

分类专栏：学习机器学习文章标签：学习机器学习

本文链接：https://blog.csdn.net/DeButAlacatraz/article/details/135039178

版权

学习机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

补学一下第三章，上次忘学了。链接如下：
第三章动态规划 (johnjim0816.com)
        动态规划是一种求解复杂问题的方法，它将原问题分解为相对简单的子问题，并利用子问题的解来推导原问题的解。动态规划的核心思想是利用问题的最优子结构和无后效性，通过递推或迭代的方式，从已知的初始状态出发，逐步求解出最优策略和最优值函数。
动态规划的应用范围很广泛，不仅在计算机科学中有很多经典的例子，如背包问题、最长公共子序列、最短路径等，也在建筑学中有一定的借鉴意义。例如，建筑设计中的空间分配问题，就可以看作是一个动态规划问题。空间分配问题是指在给定的场地和功能需求下，如何合理地划分和安排各个空间，使得空间的利用率和舒适度最大化。这个问题可以分解为多个子问题，即如何分配和安排每个空间。每个空间的分配和安排取决于其功能、尺寸、形状、位置、朝向、通风、采光等因素，以及与其他空间的关系。每个空间的分配和安排也会影响整体的空间效果和品质。因此，空间分配问题具有最优子结构和无后效性的特点，可以用动态规划的方法来求解。
        动态规划的方法可以分为两种：策略迭代和值迭代。策略迭代是指在给定一个策略的情况下，先评估该策略的价值函数，然后根据价值函数来改进策略，如此反复，直到策略收敛到最优策略。值迭代是指在给定一个初始的价值函数的情况下，先根据贝尔曼最优方程来更新价值函数，然后根据价值函数来确定最优策略，如此反复，直到价值函数收敛到最优价值函数。这两种方法都可以保证收敛到最优解，但是在实际应用中，需要根据问题的特点和数据的规模来选择合适的方法。
        个人感觉动态规划可以将复杂的问题简化为简单的子问题，从而降低问题的难度和复杂度。同时，动态规划也是一种非常灵活和通用的方法，它可以适用于各种不同的问题，只要问题具有最优子结构和无后效性的性质。它不仅是一种算法，也是一种思维方式——可以帮助我们更好地分析和解决问题。

第三章的一些感受：

动态规划的主要性质：动态规划问题的关键性质包括最优子结构（最优解可以由子问题的最优解构成）和重叠子问题（在计算过程中，同一个子问题会多次出现）。
状态价值函数和动作价值函数的关系：状态价值函数是在特定策略下，从某状态开始的预期回报；动作价值函数是在特定策略下，从某状态开始执行某动作的预期回报。状态价值是所有可能动作的动作价值的期望。
策略迭代与价值迭代的速度：价值迭代通常比策略迭代快，因为它直接对价值函数进行迭代，而不是在每次迭代中都进行策略评估和改进。

在《免模型预测》（链接：第四章免模型预测 (johnjim0816.com)）这一章节中，主要讨论了在强化学习中如何在没有环境模型的情况下进行有效的学习。它介绍了如何使用代理从与环境的实际交互中直接学习和估计状态价值函数和动作价值函数。章节中提到了几种重要的学习方法，包括蒙特卡罗方法和时间差分学习方法，同时也解释了这些方法的原理和应用场景。这些内容对于理解如何在不完全了解环境动态的情况下进行学习和决策是非常重要的。免模型预测的核心思想是在没有环境模型的情况下，直接从与环境的交互中学习状态或动作的价值。这意味着我可以通过实际的建筑设计和运行数据来学习和优化决策过程，而无需详细了解建筑的全部复杂性。
在建筑学领域，这种方法可以用于多种场景。例如，在进行能效优化时，可以根据历史数据来预测不同设计方案的能源消耗，而不需要精确模拟整个建筑的能源动态。同样，在城市规划和建筑布局设计中，可以利用免模型预测来评估不同设计决策的长期影响。

此外，免模型预测也有一些局限性：由于它依赖于与环境的实际交互数据，因此在数据量不足或数据质量低下的情况下可能无法达到最佳效果。对于建筑学领域，这意味着需要收集高质量的实际运行数据，以确保预测的准确性。

第四章的一些感受：

有模型与免模型算法区别：有模型算法（Model-based）需要环境的模型信息，用于预测未来的状态和奖励，如动态规划。免模型算法（Model-free）不需要模型信息，直接从经验中学习，如Q学习和SARSA。
预测与控制区别与联系：预测是指在给定策略下估计状态或动作的价值；控制是指找到最优策略。预测通常是控制的基础，因为需要评估不同策略的效果以选择最优策略。
蒙特卡洛方法与时序差分优劣：蒙特卡洛方法不依赖于环境模型，适用于探索完整的情节，但可能方差较大、效率低下。时序差分方法可以在线更新，更高效，但可能对初始值敏感，且依赖于合适的学习率选择。

免模型控制（链接：第五章免模型控制 (johnjim0816.com)）是强化学习中的一个重要概念，它指的是在没有对环境模型精确知识的情况下，如何优化智能体的行为策略。在这一章节中，主要介绍了两种免模型控制方法：蒙特卡罗控制和时间差分控制。这些方法通过智能体与环境的实际交互来学习最佳策略，而不是依赖于对环境的精确建模。

在建筑学领域，这种方法可以用于多种场景。例如，在进行建筑设计时，可以利用这些方法来优化建筑的能效和舒适度，通过实际的运行数据来调整和改进设计方案。此外，在城市规划和建筑布局设计中，可以利用免模型控制来评估不同设计决策的效果，从而作出更加合理的设计选择。
免模型控制在实际应用中的一些挑战。由于它依赖于与环境的交互，因此在数据量不足或数据质量低下的情况下可能无法达到最佳效果。对于建筑学领域，这意味着需要收集高质量的实际运行数据，以确保学习的准确性。

第五章的一些感受：

Q值过估计：在免模型控制中，Q值过估计是指算法倾向于过高估计Q值。这通常发生在使用最大化操作选择未来动作时。缓解方法包括双Q学习，即使用两套Q值估计，从而减少过估计。
on-policy与off-policy：on-policy方法在学习过程中遵循并改进同一个策略，如SARSA；而off-policy方法可以从与目标策略不同的行为策略中学习，如Q学习。
探索策略的必要性：探索策略是必要的，因为它允许代理探索环境以获得更多信息。这对于发现更好的行动策略至关重要，特别是在初始信息不足或环境变化的情况下。