强化学习-1-基础原理及原理及马尔可夫决策流程(MDP)

本文介绍了强化学习的基础概念,包括其心理学背景和工程应用。文章通过训练狗坐下的例子解释了强化学习的智能体与环境互动过程,并详细阐述了马尔可夫决策过程(MDP)的原理,包括状态、动作、奖励和一步动态特征等核心概念。此外,还讨论了折扣因子在考虑未来奖励期望中的作用,以及如何构建简单的MDP模型。
摘要由CSDN通过智能技术生成

最近在做实习生, 公司大佬们都很忙, 正好这边有个强化学习的项目我也有基础, 于是就交给我研究一下, 借这个机会我也重新去复习一下强化学习的相关知识并做记录, 希望能写成一个教程的模式, 一步一步从概念到代码, 如果能有帮助不胜荣幸, 本人也很菜如果有错误还望指正海涵

一. 什么是强化学习

强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
---------------------------------------------------维基百科--------------------------------------------------

简单来说就是像训练小动物一样训练一个代码组成的智能体, 让他帮助我们去完成某些工作

从工程角度来说强化学习就是将已知问题分割为一个环境体和一个智能体, 智能体通过学习的方式去熟悉环境、从环境中得到状态产生动作, 并达成某些目的, 环境提则根据智能体的动作提供下一个状态并根据智能体的动作和我们的目的返回一个奖励(惩罚), 智能体以最大化奖励为目标从而训练智能体尽快达成我们的目的
如果你看不懂不要着急, 我们后面会详细的解释这些名词

强化学习在机器学习领域的实际价值产出并不高, 但是它才是真正传统意义上的AI, 是机器学习的大方向, 只是受限于目前的算力等因素, 导致他的知名度和使用程度远不及深度学习, 目前它更多的在游戏领域被使用, 像棋类游戏(AlphaGo, AlphaZero你一定听说过), 以及Dota, 星际的AI, 当然还有我们的热门领域自动驾驶

二. MDP及实现原理

在机器学习问题中,环境通常被规范为马可夫决策过程(MDP),所以许多强化学习算法在这种情况下使用动态规划技巧。传统的技术和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。
---------------------------------------------------维基百科--------------------------------------------------

在解释他的原理的时候我想训练狗是最易懂的例子:
我们(环境)要训练狗坐下(目的), 于是我们对狗(智能体)说:坐下(状态)

  • 如果狗坐下了(动作), 我们给它一根骨头(奖励)
  • 如果没有坐下(动作), 就什么都的得不到(或者给它一些惩罚)(奖励)

狗并不知道我们在说什么, 但是它想要骨头, 狗的目的是得到最多的骨头, 在狗努力获得最多骨头的同时, 也达到了了我们的目的, 让狗坐下.

这就是我们在训练智能体的时候一个完整的流程, 在这个过程中人充当的是环境, 负责接收智能体的动作, 并提供反馈(奖励), 狗在这个环境中充当智能体, 目标是根据状态做出动作并最大化奖励, 重复这个流程就达到了训练狗坐下的目的如图:

在这里插入图片描述
实际的问题中我们面临的问题通常是阶段性的(下棋-输或赢,走迷宫-到达终点)或者连续性的(自动驾驶-走的越远越好), 这里我们先说阶段性的, 连续性的任务在后面再谈
它的流程是这样的:

  1. 环境相智能体传递环境信号 - S 0 S_{0} S0
  2. 智能体根据环境状态返回动作决策 - A 0 A_{0} A0
  3. 环境根据动作决定奖励数值 - R 1 R_{1} R1
  4. 判断-是否达到了目标, 没有则返回->1, 达到了则结束

智能体的目的是最大化奖励, 但是在某一时间点上t来说, 智能体的当前目的是最大化未来的奖励, 也就是
G T = R t + 1 + R t + 2 + R t + 3 . . . . . + R t + n G_{T}=R_{t+1}+R_{t+2}+R_{t+3}.....+R_{t+n} GT=Rt+1+R

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值