机器学习笔记(八):强化学习

本文介绍了强化学习的基本概念,包括强化学习的目标、类型以及常用的算法,如Sarsa、Q-Learning和Policy Gradients等。通过与人类学习过程的对比,解释了强化学习如何让机器通过试错和反馈来优化决策策略,以实现最大化的奖励。
摘要由CSDN通过智能技术生成

前面我们介绍的机器学习算法都属于人工喂给机器数据,然后机器从这些数据中学得模型。而我们人类的学习过程并不是这样,人类通过自身的感官感知环境,而后从环境中获得经验、知识,因此单纯地依靠前面所介绍的方法并不能实现通用人工智能。那么有没有办法使得机器也能自动地不断从周围环境中获得经验或‘知识’呢?阿兰。图灵曾提出过这样的设想“除了试图去建立一个模拟成人大脑的程序外,为什么不试图建立一个可以模拟小孩大脑的程序呢?如果他接受适当的教育,就会获得成人的大脑。”基于这个设想,研究者们提出了强化学习(Reinforcement Learning,又译为增强学习)的概念。本文主要对强化学习的基本概念与方法进行介绍。

目录

一、什么是强化学习(RL)?

二、强化学习的类型

三、常用的强化学习算法


一、什么是强化学习?

强化学习是从一种让agent(智能主体)自动连续做出决策的机器学习方法。其原理可归纳如下:

在强化学习中,学习者是一个能够自动做出决策的agent,它通过感知自身所处的状态(state)与环境来产生动作(action),而不同状态下的不同动作会带给agent不同的奖赏(reward)。强化学习的目标就是通过一系列的试错后找到一种最优的策略(policy),使得经过一系列的动作(actions)后,所获得的总的奖赏(reward)最大。

为方便理解,可参考下面这张图

强化学习的Agent主要由三部分构成,分别是:感受器用来感知当前所处状态(State);决策模型f根据当前状态下不同动作(Action)的奖赏(Reward)来选择策略与环境交互;动作器执行这些动作;

基于上面的介绍,我们可以把一个强化学习的过程抽象为以下数学代数的形式

l 一系列agent的状态 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值