CartPole-v1 50行python实现

最新推荐文章于 2024-07-04 10:35:23 发布

pysnow530

最新推荐文章于 2024-07-04 10:35:23 发布

阅读量858

点赞数

分类专栏：机器学习文章标签： openai gym 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/colin5300/article/details/118059367

版权

本文介绍了使用50行Python代码解决CartPole-v1问题，这是一个经典的强化学习挑战。通过线性模型和简单的Q-learning策略，作者探讨了算法的实现和优化，包括去除无用输入和优化权重更新。尽管算法在大多数情况下有效，但存在来回震荡和后期回报低的问题，值得进一步研究。

摘要由CSDN通过智能技术生成

CartPole-v1 50行python实现

背景
题目
线性模型
代码
过程中的优化及问题

CartPole-v1 50行python实现

背景

很久没有写文章了，github上维护的博客 https://blog.dong.black/ 上篇还是今年5月15号的，距离现在也有一个多月了。

之前在优达学过一小段时间的机器学习，感觉挺有意思，最近又看到了gym，想动手再尝试一把。

CartPole-v1是gym中比较经(jian)典(dian)的题目，号称机器学习中的 hello world，比较适合我这种小白。趁着周末的闲功夫，求解一下。

题目

官方其实已经给出解释了：

Reinforcement learning Q-learning approach to OpenAI Gym’s CartPole environment.

这本质上是一个Q-learning问题，但是作为强化学习的 hello world，其实也有很多其它的解法。

作者尝试过使用DQN解，但是收敛速度和稳定性差强人意。个人电脑吱吱转，算法却死活不收敛。

罢了，使用线性模型蒙一下吧。

线性模型

基本思路，是使用单个神经元。这里也不反向传导了，直接在当前空间随机探索，然后查看效果。

激活函数就是根据结果符号输出action，可以简单理解为 int(input > 0)。

基本的过程如下：

随机选取 weights + bias
生成随机步长 delta_weights
计算更新后 weights 可以得到的回报 rewards
如果 rewards 相较之前增大了，应用 delta_weights；减小了，反向应用 delta_weights

算法简单粗暴，但是针对这个简单粗暴的题目，效果挺好。

代码

代码量只有50行，也没有比较复杂的逻辑，所以这里就直接贴出来了。

import gym
import numpy as np
import matplotlib.pyplot as plt


def predict(state, weight):</

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pysnow530 CSDN认证博客专家 CSDN认证企业博客

码龄14年

33: 原创

15万+: 周排名

194万+: 总排名

9万+: 访问

: 等级

1178: 积分

6: 粉丝

21: 获赞

23: 评论

29: 收藏

私信

关注

热门文章

分类专栏

机器学习 2篇
gentoo linux 2篇
guile
android 3篇
enjoy 1篇
tools 1篇
Node.js 1篇
php 2篇
Ruby 1篇
git 3篇
python 1篇
生活 1篇
tool 2篇
系统设计 1篇
思考 3篇
想法
go 2篇

最新评论

CartPole-v1线性模型局限
CSDN-Ada助手: 非常感谢CSDN博主的分享，关于CartPole-v1线性模型的局限性，确实是一个非常有趣的话题。我建议下一篇博客可以继续探讨强化学习中其他模型的优缺点，比如深度强化学习、策略梯度等方面，也可以结合实战案例进行讲解，这样的技术文章对其他用户学习强化学习会有很大的帮助和启发。相信会有更多读者期待您的下一篇文章。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
为什么我不使用JetBrains的屌炸天编辑器
qiyujie123: 为什么不考虑下是你电脑配置该升级了呢？
CartPole-v1 50行python实现
pysnow530: 小白，刚开始学习，一起交流呀
CartPole-v1 50行python实现
空中旋转篮球: 好专业！
为什么我不使用JetBrains的屌炸天编辑器
jjdoor: 生产力的提高才是第一要素。

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。