Reinforcement Learning: An Introduction 阅读笔记(一)

本文是《Reinforcement Learning: An Introduction》的阅读笔记,介绍强化学习的基本概念和特点。文章阐述了强化学习是通过与环境交互,学习最大化奖励的算法,区别于监督学习,并探讨了其局限性和值函数的重要性。
摘要由CSDN通过智能技术生成

前言

开新坑系列……
先来谈谈什么是强化学习,或者说增强学习。强化学习就是指再一个特定环境下,通过与环境交互,获得环境的反馈从而进行学习的智能算法。什么是特定环境呢?举个flappy bird的例子(博主的执念),flappy bird游戏的核心目标,就是使得玩家操作的鸟,不装到柱子上。作为人类,我们也会再游戏进程中无意或者有意的去发现一些规律,取得更高的分数。强化学习要做的就是将这种能力注意到学习算法上,也就是训练一个智能体(Agent)
从深蓝击败国际象棋冠军,到Alpha Go,星际争霸和Dota2的AI。如今过去了多年,我们还是要回过头来看看强化学习发展的历程。
在这里插入图片描述
Reinforcement Learning: An Introduction是一本介绍了强化学习算法方方面面的书,我会记录在阅读中的思考和联想,一共阅读者参考。博主从19年6月接触强化学习,也只是读过一些最近的RL方面的工作,堆RL并非知根知底,如有错误还请不吝赐教。

Reinforcement Learning: An Introduction:一书将强化学习算法大致分了两类:Tabular Solution Methods,和Approximate Solution Methods。前者更专注于数学模型,而后者注重于模拟这个过程本身。

引子

强化学习,是在一个特定环境中,通过一系列操作,从环境的反应中学习

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值