机器学习：增强式学习Reinforcement learning

uncle_ll

已于 2023-12-26 00:41:50 修改

阅读量572

点赞数 7

分类专栏：机器学习文章标签：机器学习人工智能增强学习 action ppo

于 2023-12-18 23:41:17 首次发布

本文链接：https://blog.csdn.net/uncle_ll/article/details/135072929

版权

机器学习专栏收录该内容

68 篇文章 6 订阅

订阅专栏

在这里插入图片描述

收集有标签数据比较困难的时候
同时也不知道什么答案是比较好的时候
可以考虑使用强化学习
通过互动，机器可以自己知道什么结果是好的，什么结果是坏的

Outline

在这里插入图片描述

什么是RL

在这里插入图片描述

Action就是一个function
Environment就是告诉这个Action是好的还是坏的

例子 Space invader

在这里插入图片描述

只能左移动，右移动，开火
任务就是杀死外星人
奖励就是分数
终止：杀死所有的外星人，或者自己被外星人杀死
找到一个function使得得分总和最大

例子：Play Go

在这里插入图片描述

下围棋的score只有在游戏结束的时候才有分数，+1， -1， 0
中间时刻是没有得分的

RL和ML关系

在这里插入图片描述

Step1：未知数的Function

在这里插入图片描述

在RL中，未知数的Function就是Action
输入是网络观察到的
输出是每个动作的反馈
分数就是激励，基于分数去有概率的随机性采取对应的行动，增加多样性

Step2：定义Loss

在这里插入图片描述

把所有的reward进行累加作为最终分数
Loss就是要最大虾该总和分数

Step3：优化器

在这里插入图片描述

给定的随机行为，有随机的反应
如何找到一组参数去使得分数越大越好
类比于GAN，但是Reward和env不能当作是network，是一个黑盒子

Policy Gradient

在这里插入图片描述
如何控制你的action

希望采用的模型，可以类比一个分类器
希望不采用什么动作的模型，可以使用上面取反
使得e1越小越好，使得e2越大越好

收集一些训练数据
在这里插入图片描述
但不一定是只有两种情况，不是二分类问题，可以采用不同的数字表示不同程度的期待

定义

版本1

随机的Action得到结果，然后进行评价正负
在这里插入图片描述

该版本不是一个好的版本
短视近利的Action，没有长远规划
每个动作都影响后续的动作
奖励延迟，需要牺牲短期利益获得长远利益

版本2

在这里插入图片描述

把每个动作之后的分数都加起来作为该动作的分数

版本3

在这里插入图片描述

相邻的动作影响更大一点，越远的距离的动作影响越小

版本4

在这里插入图片描述

需要对分数进行标准化，减掉一个baseline b，使得分数有正有负

Policy Gradient

在这里插入图片描述

收集资料是在epoch循环中
每次Update之后需要重新收集资料
RL训练非常耗时
同一种行为对于不同的s是好坏是不一样的，是一个连续的。
off-policy可以不用在更新前收集资料了，只需要收集一次
增加随机性，尝试不同的action

PPO

在这里插入图片描述

Actor critic

Critic

在这里插入图片描述

MC方法

在这里插入图片描述
完成游戏最终结果才知道

TD方法

在这里插入图片描述
二者做查，越接近越好， $r_t$ 是知道的，这种方法不用知道最后结果

MC vs TD

在这里插入图片描述

如果表现比平均好，at大于0，如果小于平均值，则at小于0

在这里插入图片描述

Tip of actor critic

在这里插入图片描述
会共用一些参数

DQN

在这里插入图片描述

Reward Shaping

在这里插入图片描述

大部分reward是0的时候，就是稀疏reward，需要定义一些额外的reward

在这里插入图片描述

给机器加上好奇心，看到新的东西就加分，有意义的新东西

No Reward

在这里插入图片描述

凭借专家的示范进行学习
在这里插入图片描述
专家的样本比较少

机器复制专家的任何行为，即使是不合理的动作

让机器自己定reward，从专家的示范反推reward function，然后给予这些reward进行学习
在这里插入图片描述

与GAN的过程有点类似

教机器摆盘子，倒东西，先示范20次

uncle_ll

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习：增强式学习Reinforcement learning

增强学习介绍及action不同的版本
复制链接

扫一扫

专栏目录

机器学习：增强式学习Reinforcement learning

Outline

什么是RL

例子 Space invader

例子：Play Go

RL和ML关系

Step1： 未知数的Function

Step2：定义Loss

Step3：优化器

Policy Gradient

定义

版本1

版本2

版本3

版本4

Policy Gradient

PPO

Actor critic

Critic

MC方法

TD方法

MC vs TD

Tip of actor critic

DQN

Reward Shaping

No Reward

Step1：未知数的Function