深入浅出的强化学习笔记(一)——概述

深入浅出的强化学习笔记(一)——概述

本系列将针对强化学习,从基础概念到最近十分热门的模型求解算法Deep Q-learning(即DQN),全面讲解强化学习的发展历史和算法原理。

1.强化学习的特征

强化学习与有监督学习有几分相似,但它并不存在明确的答案或者标签,而有一个看上去类似但实则大相径庭的概念——报酬

 
下面以踢足球的进攻为例,把强化学习和有监督学习的区别再讲清楚一点。为了完成一次进攻,球员需要完成传球、运球、假动作等等一系列的步骤。

 
对于有监督学习来说就是,你进行每一个步骤时都能听到场外一个个观众在讨论,“我觉得向左后方传球是个不错的办法”、“我觉得向右前方运球推进简直是胡来”等等,然后球员根据听到的讨论进行决策,然后通过完成这一系列的决策从而最终进球。

 
而对于强化学习来说,它只知道进球的报酬是3分,获得一次罚球机会的报酬是2分,绕过一名防守球员的报酬是1分,被断球的报酬是-2分等等。具体到每一个步骤到底如何抉择才是最好的,就没有人告诉它了,他只能在脑海中不断演算分析、推倒重来,最后学习得到每一个步骤的最佳决策。

 
那么到底如何才能根据最后的报酬推导出每一次阶段性决策的评价得分呢?显然,我们只能进行逆向推导。

逆向推导

2.马尔科夫决策过程

下面介绍马尔科夫决策过程的几个重要参数:

  1. 状态S:State,比如下围棋时某一个时刻的当前棋局;
  2. 行动A(s):Actions,根据当前的状态s,选择进行动作a的概率;
  3. 转移T(s’|s, a):Transition,在状态s时,经过行动a,然后状态变化到s’的概率;
  4. 报酬R(s, a):Rewards,状态s时进行动作a对你的有利程度;
  5. 策略 π(s)>a :Policy,当处于状态s时,最应该作出的行动a

 
如果感觉还是不够清晰,可以参考下下面的这幅图(街头霸王):

街头霸王

  • 状态:自己的位置、自己的血量、敌人的位置、敌人的血量……
  • 行动:当前时刻有效的所有按键组合

 
这种情况下不仅要考虑到获胜概率的最大化(路径的总报酬尽量大),还要兼顾到游戏时间有限,必须速战速决(路径要尽量短),同时随着推导路径长度的不断增长,不确定因素也会增多,求得的获胜概率的可信度也会不断下降。

 
于是,我们需要加入一个报酬衰减因子 λ
然后,我们再定义一个新的参数,来表示某状态的有利程度评价值

Uπ(s)=E[tλtR(st)|π,s0=s]

回到最初的问题,我们关心的是如何做出当前状态s下的最佳决策,显然有下面的公式

π(s)=argmaxasT(s,a,s)U(s)

显然,我们若是每一个决策都选择有利程度最大的那个决策的话,我们的评价函数就要改写一下了(①式和②式联立,主要是为了消去 π(s) 这个变量)

U(s)=R(s)+λmaxsT(s,a,s)U(s)

上面的式子被称为Bellman equation,这样我们做出决策时就仅需要考虑当前的状态s即可,大大简化了算法模型的训练。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark是一个开源的大数据处理框架,它提供了高效的数据处理能力和易用的API,支持多种数据处理模式,包括批处理、流处理和机器学习等。Spark的核心是分布式计算引擎,它可以在集群中运行,利用多台计算机的计算能力来处理大规模数据。Spark的优势在于其高效的内存计算和强大的数据处理能力,可以在处理大规模数据时提供更快的计算速度和更高的性能。Spark的生态系统也非常丰富,包括Spark SQL、Spark Streaming、MLlib和GraphX等组件,可以满足不同的数据处理需求。 ### 回答2: Spark是一种大规模数据处理引擎,可以较快地处理大数据。Spark并不是单独的一种工具,而是一系列的工具和库的整合。它具备高效的内存计算功能,能够在数秒或数分钟内完成数据处理任务。 Spark的核心是分布式计算引擎,通过将数据分成多个部分进行处理,缩短了计算时间。Spark基于RDD(弹性分布式数据集)进行数据处理,RDD是一种可缓存、可重用和容错的数据结构。RDD抽象了数据分布和分区,提供了简单的API。 Spark的架构包括四个组件:Driver、Cluster manager、Worker、和 Executor。其中Driver是Spark应用程序的主程序,Cluster manager通过Master节点来管理各个Worker节点,Worker节点包含了整个Spark集群的计算资源,Executor执行计算任务。 Spark支持多种编程语言,包括Scala、Java、Python和R。其中Scala是Spark的主要语言,因为它能够将Spark的API最大程度地利用。 除了分布式计算引擎外,Spark还提供了多种库和工具,包括Spark SQL、Spark Streaming、MLlib和GraphX。Spark SQL是一种用于结构化数据处理的库,能够使用SQL语句进行数据查询;Spark Streaming可以实时处理数据流,包括文本和图像等;MLlib是实现了多种机器学习算法的库,包括分类、回归、聚类和协同过滤;GraphX可以用于图计算和图分析领域。 总之,Spark是一种强大的大数据处理引擎,能够通过分布式计算架构实现快速的数据处理。它提供了多种语言支持和众多的库和工具,方便用户处理各类数据。 ### 回答3: Spark是一款开源的、分布式的大数据处理框架,它的出现将大数据处理的速度提升到了一个全新的水平。Spark的特点在于它的内存计算引擎,这使得Spark的运行速度比传统的MapReduce处理速度要快很多,同时也比传统的Hadoop更加灵活。 Spark可以用于处理各种大数据应用场景,包括批处理、交互式查询、实时流处理等等。同时,Spark的生态系统非常丰富,有众多的开源库和工具可以使用,例如:Spark SQL、Spark Streaming、GraphX、MLlib等等。 Spark的运行环境需要一个集群,因为Spark是分布式的,它可以通过在集群中多个节点上并行执行任务来提升处理速度,而且Spark支持多种集群管理和资源调度工具,例如:Apache Mesos、Hadoop YARN、Spark自带的资源调度程序等等。 Spark的编程接口非常灵活,可以使用Scala、Java、Python等多种编程语言来编写Spark程序。无论是使用哪种编程语言,Spark都提供了相应的API和工具,例如:Spark SQL、Spark Streaming等。 总之,Spark是一个非常强大的大数据处理框架,它的出现是对传统的Hadoop框架的一种补充和升级,不仅可以处理海量的数据,而且可以提供更快速的数据处理速度和更强大的数据处理能力。因此,Spark已经成为现代大数据处理和机器学习领域中非常重要的工具之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值