用ppo算法通关超级玛丽

最新推荐文章于 2024-07-18 07:36:42 发布

GodGump

最新推荐文章于 2024-07-18 07:36:42 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签： python 深度学习

本文链接：https://blog.csdn.net/GodGump/article/details/126062394

版权

机器学习专栏收录该内容

59 篇文章 0 订阅

订阅专栏

感谢阅读

序言
起航
- 准备工作
- 运行游戏

序言

为什么是ppo？

ppo算法作为强化学习领域out of art的算法，如果你要学习强化学习的话 ppo会是你最常用的算法。openai早已把ppo 作为自己的默认算法，所以我希望你能认真学完ppo算法并为自己所用。

强化学习是什么？

简单来说强化学习是一类通过不断与环境交互来学习如何达到设定目标的一类算法，比如走迷宫，传统的运筹学算法往往是通过遍历所有的点来完成路径规划，而强化学习则是实现一个anget,让这个
agent自己去随机探索路线，在探索的过程中学习如何走的更远并最终走到终点，这就是强化学习的思想。

需要哪些库？

gym
gym_super_mario_bros
opencv-python
spinup
joblib

起航

准备工作

#导入实验需要的包
from nes_py.wrappers import JoypadSpace
import gym_super_mario_bros
from gym_super_mario_bros.actions import SIMPLE_MOVEMENT
#使用gym_super_mario_bros包函数创建游戏环境env
env = gym_super_mario_bros.make('SuperMarioBros-v0')
#指定环境为简单模式（动作简化，去除一些左上、左下等复杂动作）
env = JoypadSpace(env, SIMPLE_MOVEMENT)
#使用gym的wrapper函数对游戏视频进行录像（由于notebook不支持display，我们录像后播放观看）
from gym import wrappers
env = wrappers.Monitor(env,"./gym-results", force=True)
#执行5000个简单的向右随机操作 
done = True #游戏结束标志
for step in range(5000):
    if done:
        #如果游戏结束则重置：
        state = env.reset() 
    state, reward, done, info = env.step(env.action_space.sample())
# 关闭创建的游戏env
env.close()

运行游戏

git clone https://github.com/gaoxiaos/Supermariobros-PPO-pytorch.git
cd auper_ppo
video = io.open('./gym-results/openaigym.video.%s.video000000.mp4' % env.file_infix, 'r+b').read()
encoded = base64.b64encode(video)
HTML(data='''
    <video width="360" height="auto" alt="test" controls><source src="data:video/mp4;base64,{0}" type="video/mp4" /></video>'''
.format(encoded.decode('ascii')))