小白684-CSDN博客

原创强化学习打卡之DDPG

强化学习打卡之DDPGDDPG用来解决action是连续的问题，其实有个概念挺混乱的，DQN是用来解决状态空间和动作空间过大的问题，连续的动作变量不就是很大的动作空间吗，为啥它不能解决连续动作变量的问题呢，直到跟上上一章Actor-Critic对比才知道跟神经网络的输入输出有关，因为DQN的神经网络输出的每个动作的Q值，所以不能解决动作时连续的问题，而Actor-Critic可以，因为用到了PolicyGradient进行策略迭代输出动作的方法，Policy Gradients 直接输出动作的最大好处就是

2020-11-08 22:24:27 877

原创强化学习打卡之稀疏奖励和模仿学习

强化学习打卡之稀疏奖励和模仿学习1.稀疏奖励稀疏奖励就是说状态空间很大的情况下采取特定的少数几个动作才能获得奖励，就会导致agent经过大量学习和尝试都没拿到奖励。（这里我想到用epsilon-greedy去探索不就行了吗），这里李宏毅老师的举例十分的妙，我们人每天或者做的事情都没有奖励，但还是一直学习。针对这个情况的办法Reward Shaping（就是认为设计奖励去引导agent）、Curriculum Learning、Hierarchical RLReward Shaping老师举的例子：某

2020-11-05 22:24:22 1307

原创强化学习打卡之DQN与Actor-Critic

强化学习打卡之DQNDQN为了解决动作空间过大造成维数灾难问题在Q-learning的基础上引入了神经网络。DQN 主要是把 Q 函数通过价值函数近似方法转换为一个深度神经网络。神经网络输入的是状态，输出每个动作的Q值。前面学过Q-learning 是一种value-based的方法，不是学习策略，而是说有一个critic通过MC based的方法或者TD based的方法得出状态值函数 V π（s）进行 Policy Evaluation(策略评估)。MC VS.TD由上图MC和TD的更新公式可知

2020-11-03 22:14:46 2948 1

原创强化学习打卡之策略梯度与PPO

强化学习打卡之策略梯度与PPOPolicy Gradient是基于策略的，不同于前面的算法输出是Q值，Policy Gradient的输出是动作概率值，使用 gradient ascent来实现 maximize expected reward，也就是调整 actor 内部的参数 θ，使得 R 的值越大越好实现的时候要注意两个tipsTip 1: Add a Baseline原式子中的梯度值总是大于零的，同一状态下有的action没有被sample到，而被sample到的action概率增加，意味

2020-10-29 22:36:41 579

原创 Datawhale深度强化学习打卡

Datawhale深度强化学习打卡1.Markov决策过程两个重要函数state-value function ：action-value function：两者之间的关系：2.寻找最佳策略的办法2.1策略迭代：有两个步骤，第一步包括策略评估和策略优化，第二部进行策略的优化，代表算法是SARSA2.2值迭代：一直只进行Bellman Optimality Equation，迭代出optimal value function后只做一次policy update。代表算法是Q-learning

2020-10-23 22:04:43 196

原创电商平台母婴用品数据分析

#电商母婴用品数据分析（fork自https://www.kesci.com/home/project/5ec87647b2aca3003746df39）##项目介绍###项目背景（从PEST角度）政策Politics：国家发展改革委2013年5月28日表示，13个部门将出台系列政策措施，从可信交易、移动支付、网络电子发票、商贸流通和物流配送共5个方面支持电子商务发展，有利于促进在线母婴商品市场快速发展。经济Economy：随着国内经济的稳定增长，2015年我国城镇居民可支配收入增长到31195元

2020-09-17 11:33:55 881 1

原创百度飞桨强化学习七日训练营学习总结

百度飞桨强化学习七日训练营学习总结本次课程小白友好，感谢科科老师的热情细心的“领进门”，因为是零基础所以总结可能不到位，看到这篇文章的小伙伴们见谅强化学习的分类因为研究课题接触过动态规划，在控制领域强化学习可以叫做自适应动态规划，或者近似动态规划（approximate dynamic programme,ADP）由上图可知动态规划是基于模型的强化学习，状态转移概率和奖励函数是已知的，在老师举出的例子中人碰到大熊下一步的动作有多大概率是选择装死或逃跑（状态转移概率），以及装死和逃跑分别是否能生还（

2020-06-26 17:52:52 400

weixin_41560321的博客