目录
传统的自适应控制着重于介绍模型参考自适应控制的传统方法和使用 Lyapunov 技术的非线性自适应控制。当前适应性和学习系统的内容中更强调强化学习的思想。其中的重点是使用递归最小二乘(recursive least squares)方法进行系统辨识,一些模型参考自适应控制(Lyapunov 技术),使用最小均方(least mean squares,LMS)算法进行自适应信号处理,以及使用 Q 学习进行强化学习。
监督学习
self-tuning regulator
最小二乘(LS)估计
LS 算法是一种用于将实验数据拟合到模型的著名且稳健的算法。
- 第一步:用户定义一个其认为适合数据的数学结构或模型。
- 第二步:设计一个实验,在适当条件下收集数据。
- 第三步:运行估计算法(cost function 为预测误差能量和),该验证已识别或“学习”的模型。
递归最小二乘(Recursive LS)
与 LS 算法相比,RLS 算法的数据采集转变为由机器实时手机的数据;由于具有实时性,在估计过程中,根据数据采集的时间添加了对应的遗忘因子作为数据加权,即 cost function 为预测误差能量的加权和。
最小均方(LMS)
在信号处理领域,常采用 LMS 算法来辨识信道模型的系数以实现信道均衡、回声消除。与 LS 相关算法不同,该算法的 cost function 选取为预测误差能量的期望。
随机逼近法
该方法是系统识别的传统方法,也是 Q 学习方法的基本结构,可用于对强化学习中一些基本算法的收敛性分析。可参见随机逼近法。
单智能体强化学习
强化学习是学习状态与行为之间的映射关系,从交互的过程中(非监督学习)学习以达到期望目标(最大回报)。
上图为强化学习的交互过程示意图。在
t
t
t 时刻,智能体从环境中接收到状态
s
t
s_t
st,智能体更具接收到的状态进行行为
a
t
a_t
at;在下一时刻,智能体接收到上一时刻行为带来的回报
r
t
+
1
r_{t + 1}
rt+1,以及该时刻状态
s
t
+
1
s_{t + 1}
st+1。在每一个时刻,智能体完成状态与行为之间的映射;更具体地讲,是状态与可能的行为的选择概率之间的映射
π
t
(
s
,
a
)
\pi_{t}(s, a)
πt(s,a),也被成为智能体策略(agent’s policy)。
值函数(the value function)
值函数基于从特定状态可获得的未来期望回报来衡量该特定状态的价值程度。
- 状态值函数: V π ( s ) = E π [ R t ∣ s t = s ] = E π [ ∑ k = 0 ∞ γ k r t + k + 1 ∣ s t = s ] . V^{\pi} (s) = \mathbb{E}_{\pi} \left[R_{t} \mid s_t = s\right] = \mathbb{E}_{\pi} \left[\sum_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_t = s\right] . Vπ(s)=Eπ[Rt∣st=s]=Eπ[k=0∑∞γkrt+k+1∣st=s].
- 状态 - 行为值函数: Q π ( s , a ) = E π [ R t ∣ s t = s , a t = a ] = E π [ ∑ k = 0 ∞ γ k r t + k + 1 ∣ s t = s , a t = a ] . Q^{\pi} (s, a) = \mathbb{E}_{\pi} \left[R_{t} \mid s_t = s, a_t = a\right] = \mathbb{E}_{\pi} \left[\sum_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_t = s, a_t = a\right] . Qπ(s,a)=Eπ[Rt∣st=s,at=a]=Eπ[k=0∑∞γkrt+k+1∣st=s,at=a].
- 两种值函数的关联: Q π ( s , a ) = ∑ s ′ P s s ′ a ( R s s ′ a + γ V π ( s ′ ) ) . Q^{\pi} (s, a) = \sum_{s^{\prime}} P_{ss^{\prime}}^{a} \left(R_{s s^{\prime}}^{a} + \gamma V^{\pi} (s^{\prime}) \right). Qπ(s,a)=s′∑Pss′a(Rss′a+γVπ(s′)).
强化学习的目标就是通过一个最优策略得到最优值函数(值函数的最大值)。
马尔可夫决策过程(Markov Decision Processes,MDP)
MDP 是一种单智能体、多状态的随机博弈框架,可表示为一个五元组 ( S , A , T , γ , R ) (S, A, T, \gamma, R) (S,A,T,γ,R):
- S S S 表示状态空间;
- A A A 表示行为空间;
- T : S × A × S → [ 0 , 1 ] T: S \times A \times S \to [0, 1] T:S×A×S→[0,1] 为转移函数(transition function);
- γ ∈ [ 0 , 1 ] \gamma \in [0, 1] γ∈[0,1] 表示折扣因子;
- R : S × A × S → R R: S \times A \times S \to \mathbb{R} R:S×A×S→R 为回报函数(reward funvtion)。
对于任意 MDP,都存在一个确定的最优策略
π
∗
(
s
,
a
)
∈
[
0
,
1
]
\pi^{\ast} (s, a) \in [0, 1]
π∗(s,a)∈[0,1],对应是最优值函数为
V
∗
(
s
)
=
max
a
∈
A
∑
s
′
∈
S
T
(
s
,
a
,
s
′
)
(
R
(
s
,
a
,
s
′
)
+
γ
V
∗
(
s
′
)
)
;
Q
∗
(
s
,
a
)
=
∑
s
′
∈
S
T
(
s
,
a
,
s
′
)
(
R
(
s
,
a
,
s
′
)
+
γ
V
∗
(
s
′
)
)
.
\begin{aligned} V^{\ast}(s) & = \max_{a \in A} \sum_{s^{\prime} \in S} T(s, a, s^{\prime}) \left(R(s, a, s^{\prime}) + \gamma V^{\ast} (s^{\prime})\right); \\ Q^{\ast}(s, a) & = \sum_{s^{\prime} \in S} T(s, a, s^{\prime}) \left(R(s, a, s^{\prime}) + \gamma V^{\ast} (s^{\prime})\right). \end{aligned}
V∗(s)Q∗(s,a)=a∈Amaxs′∈S∑T(s,a,s′)(R(s,a,s′)+γV∗(s′));=s′∈S∑T(s,a,s′)(R(s,a,s′)+γV∗(s′)).
- 在已知状态转移概率 P s s ′ ( a ) P_{s s^{\prime}}(a) Pss′(a) 及回报 R s s ′ ( a ) R_{s s^{\prime}}(a) Rss′(a) 时。可采用迭代学习进行精确计算;
- 在上述信息未知的情况下,可使用时间差分学习(Temporal Difference Learning)根据观测回报来学习状态;Q 学习方法与时间差分学习类似,但在计算特定时刻最优值函数时采用的是贪婪算法。