强化学习笔记——第一节

第一节——基本概念

1.State

即目标对于环境的一个状态,使用 s i s_i si来表示每一个状态,状态空间表示为 S = { s i } i = 1 n S=\{s_i\}^n_{i=1} S={si}i=1n

2.Action

即目标在每个状态采取的行动,使用 a i a_i ai表示每一个行动,行动空间表示为 A ( s i ) = { a i } i = 1 n \mathcal{A}(s_i)=\{a_i\}^n_{i=1} A(si)={ai}i=1n

行动空间依赖于状态,即不同状态对应不同的行动空间

3.Policy

策略告诉了我们目标(agent)在每一个状态采取的动作,用 π \pi π来表示策略
π ( a 1 ∣ s 1 ) = 0 \pi(a_1|s_1)=0 π(a1s1)=0
表示在 s 1 s_1 s1状态下采取动作 a 1 a_1 a1的概率

4.Reward

RL中的独有概念,表示目标在行动过后得到的值

  • 如果Reward大于0,则表示行为受到鼓励
  • 否则,表示不希望发生这样的行为
  • 0表示什么都没发生

5.Trajectory

轨迹,表示状态-行动-奖励链,如下
s 1 → r = 0 a 2 s 2 → r = 0 a 3 s 5 → r = 0 a 3 s 8 → r = 1 a 2 s 9 s_1\xrightarrow[r=0]{a_2}s_2\xrightarrow[r=0]{a_3}s_5\xrightarrow[r=0]{a_3}s_8\xrightarrow[r=1]{a_2}s_9 s1a2 r=0s2a3 r=0s5a3 r=0s8a2 r=1s9

6.Return

返回值,等于整个轨迹上所有的奖励 r r r加在一起的结果、

discounted return

返回值为无穷,引入discount rate = γ ∈ [ 0 , 1 ) γ\in[0,1) γ[0,1)
d i s c o u n t e d   r e t u r n = 0 + γ r 1 + γ 2 r 2 + γ 3 r 3 + … … discounted\ return = 0 + \gamma r_1+\gamma^2 r_2 + \gamma^3 r_3 + …… discounted return=0+γr1+γ2r2+γ3r3+……
好处

  • 使结果为有限值
  • 平衡近远未来的返回值
    • 如果γ趋于0,则discounted return值由前面的reward决定
    • 反之趋于1,由后面的决定

7.Episode

  • 从开始到停下来时候的状态的轨迹,称为一个Episode
  • Episode通常都是有限步数

8.MDP

MDP的要素

  • 集合Sets:
    • 状态State
    • 动作action
    • 奖励reward
  • 概略分布probability distribution:
    • 状态变换概率State transion probability: p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a)表示从状态s采取动作a到达状态s’的概率
    • 奖励概率reward probability: p ( r ∣ s , a ) p(r|s,a) p(rs,a)表示从状态s采取动作a得到奖励r的概率
  • 策略Policy: π ( a ∣ s ) \pi(a|s) π(as)

MDP代表“马尔可夫决策过程”(Markov Decision Process)。这是一个数学框架,用于描述一种随机的动态系统,在这种系统中,代理(通常是一个智能体或机器学习算法)采取行动,然后观察到环境的状态,从而获得奖励。

马氏过程(MDP的性质 memoryless property)

简单来说,对于一个马式过程,当前状态之和上一个状态有关,和之前所有状态都无关即计算当前状态发生的概率,只用上一个状态的取值来计算即可

如,考一个好高中,就可能考一个好大学,考一个好大学,就更有可能找一个好工作。

马尔可夫决策过程

在MDP中,添加了行为变量 A t A_t At与奖励变量 R t R_t Rt,则下一个时刻状态 S t S_t St由转移概率模型 P ( S t + 1 ∣ S t = s t , A t = a t ) P(S_{t+1}|S_t = s_t,A_t=a_t) P(St+1St=st,At=at)(马尔可夫可能性Markov property)决定,系统输出 R t R_t Rt P ( R t ∣ S t = s t , A t = a t ) P(R_t|S_t = s_t,A_t=a_t) P(RtSt=st,At=at)决定

如,在重点高中 S t S_{t} St努力学习 A t A_t At,考上好大学 R t R_t Rt的概率为90%,在重点高中不努力学习,考上好大学的概率为50%。

在普通中学努力学习,考上好大学的概率为60%,不努力概率为20%。

在MDP中,我们一般假定链的长度是有限的,并且一般不会太长。

  • 19
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,关于 jQuery 的事件,我可以和你分享一些学习笔记。 1. 绑定事件 在 jQuery 中,我们可以通过以下方式来绑定事件: ``` $(selector).event(function(){ // 事件处理程序 }) ``` 其中,`selector` 表示要绑定事件的元素,`event` 表示要绑定的事件类型,比如 `click`、`mouseover` 等等。事件处理程序则是在事件触发时要执行的代码块。 2. 多个事件绑定 我们可以通过 `on()` 方法来同时绑定多个事件: ``` $(selector).on({ event1: function(){ // 事件处理程序1 }, event2: function(){ // 事件处理程序2 } }) ``` 这样,当 `event1` 或 `event2` 中任意一个事件触发时,对应的处理程序都会被执行。 3. 解除事件 如果需要解除某个元素的事件处理程序,可以使用 `off()` 方法: ``` $(selector).off(event); ``` 其中,`event` 表示要解除的事件类型。如果不指定事件类型,则会解除该元素上所有的事件处理程序。 4. 事件委托 在 jQuery 中,我们可以使用事件委托来提高性能。事件委托是指将事件绑定到父元素上,而不是绑定到子元素上,然后通过事件冒泡来判断是哪个子元素触发了该事件。这样,当子元素数量较多时,只需要绑定一次事件,就可以监听到所有子元素的事件。 ``` $(selector).on(event, childSelector, function(){ // 事件处理程序 }) ``` 其中,`selector` 表示父元素,`event` 表示要绑定的事件类型,`childSelector` 表示要委托的子元素的选择器,事件处理程序则是在子元素触发事件时要执行的代码块。 以上是 jQuery 中事件的一些基本操作,希望对你有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值