强化学习
AItrust
AI_Computer Vision
展开
-
基于百度飞桨PaddlePaddle和PARL复现PPO强化学习算法
文章目录一、PPO训练效果展示(Mujoco HalfCheetah-v2)二、策略优化算法发展回顾:三、PPO 算法论文阅读1. Introduction2. Background: Policy Optimization2.1 Policy Gradient Methods2.2 Trust Region Methods3. Clipped Surrogate Objective4. Adaptive KL Penalty Coefficient5. Algorithm6. Experiments6.1原创 2020-07-23 09:25:36 · 2645 阅读 · 2 评论 -
强化学习环境:MuJoCo 安装踩坑记录(2020年7月18日)
文章目录写在开头:一、MuJoCo环境介绍:二、系统平台介绍:三、安装 MuJoCo:3.1 获取许可证3.2 下载源文件四、安装 mujoco-py五、最后解决方案:写在开头:本文写在笔者学习了强化学习算法 DQN,PG 和 DDPG 之后之所以要安装 MuJoCo,是为了尝试 PPO 算法之前尝试安装 RLBench 去验证学过的几个算法的时候,花费了整整 3 天没有成功,一把辛酸泪~所以这次看到 MuJoCo 这个环境也是和机器人相关,想再次尝试一下希望我踩过的坑可以帮助同道中人少一点痛原创 2020-07-18 17:15:48 · 12957 阅读 · 6 评论 -
使用深度学习算法 DQN 来玩 flappy bird 无敌了!
靠自己变强才是 AI 的强大!看我的强化学习算法自己玩 Flappy Bird! 使用深度学习算法 DQN 来玩 flappy bird安装依赖pip install parl == 1.3.1pip install pygamepip install paddlepaddle模拟环境 PLE 库(PyGame-Learning-Environment)[https://gi...原创 2020-07-07 19:35:47 · 1708 阅读 · 0 评论 -
强化学习环境 OpenAI Retro 的介绍及安装方式
使用 OpenAI Retro,这是一个使用 Libretro API 将电子游戏模拟器核心转到 Gym 环境的包装器环境这里 gym-retro 环境仅仅提供了游戏交互,但是没有提供游戏的 ROMS,直接创建游戏环境会报错,比如:FileNotFoundError: Game not found: Airwolf-Nes. Did you make sure to import the ROM?所以需要先下载 ROMS推荐网址:http://www.atarimania.com/rom_co原创 2020-07-06 18:46:49 · 2369 阅读 · 0 评论 -
强化学习算法回顾 Q-learning 玩 OpenAI 的 Taxi 游戏
这里使用的是 OpenAI Taxi-V3 环境这里有 4 个地点,分别用 4 个字母表示,任务是要从一个地点接上乘客,送到另外 3 个中的一个放下乘客,越快越好。成功运送一个客人获得 20 分奖励每走一步损失 1 分(希望尽快送到目的地)没有把客人放到指定的位置,损失 10 分渲染图中显示,一共 R,G,B,Y 这 4 个地点,黄色的块是 taxi,其中 “:” 栅栏可以穿越,"|" 栅栏不能穿越蓝色显示的就是有乘客的地方,红色显示的就是乘客的目的地文章目录Step 0: 安装依赖S.原创 2020-07-05 14:24:29 · 2823 阅读 · 2 评论 -
强化学习算法实现自动炒股
强化学习算法自动炒股本文利用强化学习算法 PG,来对股票市场的指数进行交易研究感兴趣的朋友可以在这个基础上导入其他市场的数据,添加 observation 的维度(本文仅使用了“当天收盘价”和“与前一天收盘价的差值”两个维度)操作 action 设置了 2 个维度 :short 和 long添加多个维度的数据,再对多个股票进行算法训练,一定会使得该模型更具有鲁棒性,希望大家多多尝试百度深度学习算法库 PARL ,以及搭建股票测试环境的 gym-anytrading 网址附在下面,用起来感觉不错的可原创 2020-06-29 10:08:55 · 2503 阅读 · 0 评论 -
强化学习算法 DDPG 进行四轴飞行器的速度控制
本文基于百度深度学习库 PARL 完成四轴飞行器的模拟器使用的是百度的 RLschool文章目录一、DDPG 算法的收敛问题探讨:1. 传统方法:2. 新思路探讨:二、安装依赖三、具体代码及解析:3.1 库引入3.2 超参数设置3.3 智能体 Agent 模块3.4 神经网络 Model行动网络 ActorModel评价网络 CriticModel综合网络3.5 训练函数3.6 测试函数3.7 搭建环境和模型架构3.8 加载模型,训练,测试一、DDPG 算法的收敛问题探讨:1. 传统方法:在传.原创 2020-06-27 16:59:13 · 3280 阅读 · 5 评论 -
强化学习入门(五)连续动作空间内,使用DDPG求解强化学习问题
本文内容源自百度强化学习 7 日入门课程学习整理感谢百度 PARL 团队李科浇老师的课程讲解文章目录一、离散动作 VS 连续动作1.1 区别1.2 神经网络修改1.3 激活函数选择二、DDPG(Deep Deterministic Policy Gradient)2.1 从 DQN 到 DDPG2.2 Actor-Critic 结构2.3 DDPG 的优化目标和最佳策略2.4 借鉴 DQN 中的目标网络 target network 和经验回放 ReplayMemory三、 PARL 库中 DDPG.原创 2020-06-21 16:19:19 · 7217 阅读 · 12 评论 -
强化学习算法 DDPG 解决 CartPole 问题,代码逐条详解
本文内容源自百度强化学习 7 日入门课程学习整理感谢百度 PARL 团队李科浇老师的课程讲解使用DDPG解决连续控制版本的CartPole问题,给小车一个力(连续量)使得车上的摆杆倒立起来。文章目录一、安装依赖二、导入依赖三、设置超参数四、搭建Model、Algorithm、Agent架构4.1 Model4.2 Algorithm4.3 Agent五、连续控制版本的CartPole环境六、设置经验池七、Training && Test(训练&&测试)八、创建环境.原创 2020-06-21 15:59:34 · 6783 阅读 · 2 评论 -
强化学习入门(四)策略梯度方法 Policy Gradient 求解强化学习问题
本文内容源自百度强化学习 7 日入门课程学习整理感谢百度 PARL 团队李科浇老师的课程讲解文章目录一、回顾 Value-based 和 Policy-based1.1 基本概念1.2 区别二、Policy Gradient 算法2.1 随机策略中的 softmax 函数2.2 一局游戏 episode2.3 轨迹的期望回报2.4 优化策略函数三、采样方式:REINFORCE3.1 蒙特卡洛 MC 与 时序差分 TD3.2 REINFORCE 算法四、数据处理技巧4.1 简单场景的图片预处理4.2 .原创 2020-06-20 14:35:57 · 4872 阅读 · 6 评论 -
强化学习算法 Policy Gradient 解决 CartPole 问题,代码逐条详解
本文内容源自百度强化学习 7 日入门课程学习整理感谢百度 PARL 团队李科浇老师的课程讲解强化学习算法 DQN 解决 CartPole 问题,移动小车使得车上的摆杆保持直立。这个游戏环境可以说是强化学习中的 “Hello World”大部分的算法都可以先利用这个环境来测试下是否可以收敛环境介绍:小车在一个导轨上,无摩擦地来回移动,车上有一根杆子,可以绕着小车上的一个点旋转,所以我们要做的是,通过推动小车往左或者往右,来确保杆子不倒终止条件:杆子角度大于 +/-12度车.原创 2020-06-20 14:18:07 · 2428 阅读 · 0 评论 -
强化学习算法 DQN 解决 CartPole 问题,代码逐条详解
本文内容源自百度强化学习 7 日入门课程学习整理感谢百度 PARL 团队李科浇老师的课程讲解强化学习算法 DQN 解决 CartPole 问题,移动小车使得车上的摆杆保持直立。这个游戏环境可以说是强化学习中的 “Hello World”大部分的算法都可以先利用这个环境来测试下是否可以收敛环境介绍:小车在一个导轨上,无摩擦地来回移动,车上有一根杆子,可以绕着小车上的一个点旋转,所以我们要做的是,通过推动小车往左或者往右,来确保杆子不倒终止条件:杆子角度大于 +/-12度车.原创 2020-06-19 14:01:31 · 7044 阅读 · 3 评论 -
强化学习入门(三)将神经网络引入强化学习,经典算法 DQN
本文内容源自百度强化学习 7 日入门课程学习整理感谢百度 PARL 团队李科浇老师的课程讲解文章目录一、为什么要引入神经网络二、DQN 算法2.1 DQN 约等于 Q-learning + 神经网络2.2 DQN 的两大创新2.2.1 经验回放 Experience replay2.2.2 固定 Q 目标 Fixed Q target2.3 DQN 流程框架图2.4 PARL 的 DQN 框架一、为什么要引入神经网络Q 表只能解决少量状态的问题,如果状态数量上涨,那我们面对的可能性呈现指数上涨,.原创 2020-06-19 13:51:08 · 9408 阅读 · 2 评论 -
强化学习算法 Sarsa 解迷宫游戏,代码逐条详解
本文内容源自百度强化学习 7 日入门课程学习整理感谢百度 PARL 团队李科浇老师的课程讲解强化学习算法 Sarsa 解迷宫游戏文章目录一、安装依赖库二、导入依赖库三、智能体 Agent 的算法:Sarsa四、训练和测试语句五、创建环境,实例化Agent,启动训练和测试五、结果分析一、安装依赖库安装强化学习算法中环境库 Gympip install gym二、导入依赖库import gymimport numpy as npimport time # 用于延时程序,方便渲染画面.原创 2020-06-18 23:01:13 · 2859 阅读 · 2 评论 -
强化学习入门(二)强化学习MDP四元组,Q表格的概念和更新策略
本文内容源自百度强化学习 7 日入门课程学习整理感谢百度 PARL 团队李科浇老师的课程讲解文章目录一、强化学习MDP四元组1.1 状态转移概率1.2 如何描述环境1.3 Mode-free 试错探索二、Q 表格1.1 Q 值表格概念1.2 Q 表格的目标导向型1.3 实践:悬崖问题(快速到达目的地)三、强化学习更新 Q 表格3.1 Temporal Difference 时序差分(TD单步更新)3.2 与环境交互四、相关方法和策略4.1 Epsilon Greedy 方法4.2 On-Policy.原创 2020-06-18 22:23:02 · 4579 阅读 · 0 评论 -
强化学习入门(一)强化学习的基础概念及Gym库,Parl库介绍
文章目录一、强化学习初印象二、什么是强化学习三、GYM库(环境库)四、PARL库(算法库)一、强化学习初印象让机器像人一样学习:对已知环境进行规划对未知环境进行探索/试错案例:Multi-Agent Hide and Seek,OpenAI 的 AI 多角色捉迷藏游戏地址:http://openai.com/blog/emergent-tool-use参考资料:《Reinforcement Learning: An Introduction》伯克利 2018 Deep RL 课程:h原创 2020-06-17 19:20:40 · 3411 阅读 · 2 评论