强化学习-1-基础原理及原理及马尔可夫决策流程(MDP)

最新推荐文章于 2022-10-22 19:22:37 发布

Woodii

最新推荐文章于 2022-10-22 19:22:37 发布

阅读量841

点赞数 4

分类专栏：强化学习机器学习文章标签：强化学习教程

本文链接：https://blog.csdn.net/qq_41249913/article/details/98450292

版权

本文介绍了强化学习的基础概念，包括其心理学背景和工程应用。文章通过训练狗坐下的例子解释了强化学习的智能体与环境互动过程，并详细阐述了马尔可夫决策过程（MDP）的原理，包括状态、动作、奖励和一步动态特征等核心概念。此外，还讨论了折扣因子在考虑未来奖励期望中的作用，以及如何构建简单的MDP模型。

摘要由CSDN通过智能技术生成

最近在做实习生, 公司大佬们都很忙, 正好这边有个强化学习的项目我也有基础, 于是就交给我研究一下, 借这个机会我也重新去复习一下强化学习的相关知识并做记录, 希望能写成一个教程的模式, 一步一步从概念到代码, 如果能有帮助不胜荣幸, 本人也很菜如果有错误还望指正海涵

一. 什么是强化学习

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。
---------------------------------------------------维基百科--------------------------------------------------

简单来说就是像训练小动物一样训练一个代码组成的智能体, 让他帮助我们去完成某些工作

从工程角度来说强化学习就是将已知问题分割为一个环境体和一个智能体, 智能体通过学习的方式去熟悉环境、从环境中得到状态、产生动作, 并达成某些目的, 环境提则根据智能体的动作提供下一个状态并根据智能体的动作和我们的目的返回一个奖励(惩罚), 智能体以最大化奖励为目标从而训练智能体尽快达成我们的目的
如果你看不懂不要着急, 我们后面会详细的解释这些名词

强化学习在机器学习领域的实际价值产出并不高, 但是它才是真正传统意义上的AI, 是机器学习的大方向, 只是受限于目前的算力等因素, 导致他的知名度和使用程度远不及深度学习, 目前它更多的在游戏领域被使用, 像棋类游戏(AlphaGo, AlphaZero你一定听说过), 以及Dota, 星际的AI, 当然还有我们的热门领域自动驾驶

二. MDP及实现原理

在机器学习问题中，环境通常被规范为马可夫决策过程（MDP），所以许多强化学习算法在这种情况下使用动态规划技巧。传统的技术和强化学习算法的主要区别是，后者不需要关于MDP的知识，而且针对无法找到确切方法的大规模MDP。
---------------------------------------------------维基百科--------------------------------------------------

在解释他的原理的时候我想训练狗是最易懂的例子:
我们(环境)要训练狗坐下(目的), 于是我们对狗(智能体)说:坐下(状态)