第二章、强化学习基础——强化学习笔记

至尊皇堡

已于 2024-03-14 11:43:25 修改

阅读量3.9k

点赞数

分类专栏：人工智能文章标签：机器学习人工智能

于 2022-04-11 16:34:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bala_lala/article/details/124067984

版权

人工智能专栏收录该内容

6 篇文章 0 订阅

订阅专栏

第二章、强化学习基础

主要内容为题主在学习机器学习时记录的内容

文章目录

第二章、强化学习基础
一、概述
- 1.1 什么是强化学习
- 1.2 强化学习核心
- 1.3 强化学习应用场景
- - 1.3.1 玩游戏
  - 1.3.2 个性化推荐
  - 1.3.3 股票预测
- 1.4 强化学习与其他机器学习的关系
- 1.5 学习的两种方案
- - 1.5.1 基于价值
  - 1.5.2 基于策略
- 1.6 RL分类
二、GYM&PARL
- 2.1 GYM
- - 2.1.1 GYM简介
  - 2.1.2 GYM核心方法
- 2.2 PARL
- - 2.2.1 PARL简介

一、概述

1.1 什么是强化学习

强化学习是让智能体 agent 在环境 environment 中学习，根据环境的状态 state，执行动作 action ，并根据环境的反馈 reward （奖励）来指导更好的动作。
举例：
在这里插入图片描述

1.2 强化学习核心

核心主要为两部分和三要素，如图。
在这里插入图片描述
再举一个常见的游戏（是我的毕业论文呜呜呜）

在这里插入图片描述
在Flappy Bird游戏中，agent-小鸟的状态空间为：生、死、以及垂直速度，动作为：拍打起跳、不拍打，奖励为通过管道+1、死亡-1000.

1.3 强化学习应用场景

1.3.1 玩游戏

从超级强大的阿尔法狗，到简单的Flappy Bird，都可以使用强化学习作为自学习与玩家对抗比较的方式。因为游戏中有较为明显的环境、状态空间、奖励、动作，因此非常适合强化学习训练。
走迷宫游戏：
在这里插入图片描述

1.3.2 个性化推荐

在个性化推荐方面，强化学习也有着用武之地。
对于一个个性化界面，它的环境就是新闻可用列表以及屏幕前的你，而它的奖励就是用户点击则+reward，跳过或者离开则-reward，而它最终的智能体就是这个拥有了强大的推荐能力的APP。

1.3.3 股票预测

对于股票，它的state就是股票的历史曲线，它的action就是买入和卖出，奖励就是最后对收益。

1.4 强化学习与其他机器学习的关系

监督学习、机器学习、非监督学习、深度学习，这么多学习的关系到底是啥，请看下面这个图：
在这里插入图片描述
监督学习：

监督学习处理的是认知，主要用来判断是什么。

非监督学习：
在这里插入图片描述
强化学习：

强化学习关注的是决策，要怎么做。

1.5 学习的两种方案

1.5.1 基于价值

value-based：
在这里插入图片描述
主要是确定性策略，代表的方法有：Sarsa、Q-learning、DQN。

1.5.2 基于策略

policy-based：
在这里插入图片描述
将策略函数化，一条策略走到底，通过最后的结果判断策略的好坏。主要是随机性策略，代表方法为 Policy gradient。

1.6 RL分类

在这里插入图片描述

二、GYM&PARL

2.1 GYM

2.1.1 GYM简介

GYM是仿真平台，也是Python的开源库，主要用于搭训练环境，测试算法的优劣。

2.1.2 GYM核心方法

在这里插入图片描述
一般要放在一个while循环中，不停的输出一个action给step，step函数返回reward跟observation给agent。

2.2 PARL

2.2.1 PARL简介

PARL是百度开发的强化学习算法框架，它的实现主要分为三部分，Model、Algorithm、Agent。
后面的学习使用中我们会经常使用到这个框架。github链接

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。