机器学习——强化学习
文章平均质量分 88
Reinforcement Leraning
路漫求索_CUMT
既然我选择了这条路,那么没有什么可以阻挡我前进的脚步!
展开
-
强化学习12——动态规划与策略迭代和值迭代
上一节我们说了马尔可夫决策过程,它是对完全可观测的环境进行描述的,也就是观测到的内容完整决定了决策所需要的特征。马尔可夫决策过程可以用方程组求解简单问题,但是对于复杂一点的问题,一般通过迭代的思想对其进行求解。动态规划是非常有效的求解马尔可夫决策过程的方法。动态规划初步理解 动态规划求解的大体思想可分为两种:1. 在已知模型的基础之上判断策略的价值函数,并在此基础上寻找最优的策略和最优的价值函数。这种方法我们通常称其为值迭代;2. 或者直接寻找最优策略和最优价值函数,这种方法称为策略迭代。转载 2021-01-11 14:25:06 · 5032 阅读 · 0 评论 -
强化学习11——为什么ADP需要持续激励条件?
以下来自知乎的解释: ...转载 2021-01-06 10:13:28 · 2914 阅读 · 2 评论 -
强化学习10——迭代学习
一、基本概念迭代学习控制(Iterative Learning Control,ILC)的思想最初由日本学者Uchiyama于1978年提出,于1984年由Arimoto等人做出了开创性的研究。这些学者借鉴人们在重复过程中追求满意指标达到期望行为的简单原理,成功地使具有强耦合非线性多变量的工业机器人快速高精度地执行轨迹跟踪任务。其基本做法是:对于一个在有限时间区间内执行轨迹跟踪任务的机器人,利用前一次或前几次操作时测得的误差信息修正控制输入,使得该重复任务在下一次操作过程中做得更好。如此不断重复,直至在原创 2020-10-26 19:27:09 · 6328 阅读 · 1 评论 -
强化学习9——贝尔曼方程
一、基本概念贝尔曼方程(Bellman Equation)也被称作动态规划方程(Dynamic Programming Equation),由理查·贝尔曼(Richard Bellman)发现。贝尔曼方程是动态规划(Dynamic Programming)这些数学最佳化方法能够达到最佳化的必要条件。此方程把“决策问题在特定时间怎么的值”以“来自初始选择的报酬比从初始选择衍生的决策问题的值”的形式表示。借此这个方式把动态最佳化问题变成简单的子问题,而这些子问题遵守从贝尔曼所提出来的“最佳化还原理”。原创 2020-09-16 15:03:21 · 1760 阅读 · 0 评论 -
强化学习8——动态规划
一、基本概念自适应动态规划(Adaptive Dynamic Programming, ADP)由美国学者Paul J. Werbos在1977年首次提出,是机器学习的重要分支 – 强化学习算法的理论基石。该方法以最优性原理为基础,融合人工智能的先进方法,模拟人通过环境反馈进行学习的思路,有效地解决了动态规划“维数灾”的问题。近年来,自适应动态规划被认为是一种非常接近人脑智能的自学习最优控制方法,并得到了广泛的关注。二、经典书籍 ...原创 2020-09-16 11:37:12 · 1738 阅读 · 0 评论 -
强化学习7——梯度及梯度下降法
注:本文转载自https://www.cnblogs.com/pinard/p/5970503.html在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x,∂f/∂y)T,简..转载 2020-08-15 11:09:09 · 2768 阅读 · 0 评论 -
强化学习6——神经网络基础知识
一、概念及性质1.1 概念人工神经网络(简称神经网络,Neural Network)是模拟人脑思维方式的数学模型。神经网络控制是将神经网络与控制理论相结合而发展起来的智能控制方法。它已成为智能控制的一个新的分支,为解决复杂的非线性、不确定、不确知系统的控制问题开辟了新途径。典型神经网络有如下三种: (a)前向网络 (b)反馈网络 ...原创 2020-08-07 11:14:46 · 6087 阅读 · 2 评论 -
强化学习5——贝尔曼方程(Bellman Equation)与动态规划(Dynamic Programming)
一、基本概念1.1贝尔曼方程(Bellman Equation)贝尔曼方程是动态规划(Dynamic Programming)这些数学最佳化方法能够达到最佳化的必要条件。此方程把“决策问题在特定时间怎么的值”以“来自初始选择的报酬比从初始选择衍生的决策问题的值”的形式表示。借此这个方式把动态最佳化问题变成简单的子问题,而这些子问题遵守从贝尔曼所提出来的“最佳化还原理”。1.2动态规划(Dynamic Programming)动态规划算法是通过拆分问题,定义问题状态和状态之间的关系,...原创 2020-08-04 11:55:43 · 3796 阅读 · 0 评论 -
强化学习4——基于Actor-Critic的自适应PID控制器设计
注释:本博文内容来源于文献:Wang X, Cheng Y, Sun W, et al. A Proposal of Adaptive PID Controller Based on Reinforcement Learning[J]. Journal of China University of Mining and Technology, 2007, 17(1): 40-44.一、控制器结构框图 ...翻译 2020-08-01 10:24:06 · 8939 阅读 · 10 评论 -
强化学习3——基于强化学习的四足机器人运动控制
一、问题描述传统的机器人行走控制如图1所示。 图1 传统机器人运动控制框图包括三个环:平衡控制、运动轨迹控制、电机控制。传统的控制需要利用外部的视觉信号以及机器人的传感器获取环境及自身的状态信息,然后进行特征提取,从这些信息中获取有价值的信息,最后控制器根据机器人的外部及内部状态信息,由控制器...原创 2020-07-30 11:06:30 · 11797 阅读 · 7 评论 -
强化学习2——Q算法、TD算法、Sarsa算法
一、常用算法1.1 蒙特卡洛法(Monta Carlo)一种无模型(model-free)的学习方法,不需要系统模型-状态转移函数和报酬函数,只需要通过与环境的交互获得的实际或模拟样本数据(状态、动作、报酬)序列,从而发现最优策略。MC 方法是基于平均化取样回报值来求解强化学习问题。1.2 Q-学习算法1.3TD 学习算法1.4Sarsa学习算法Remark:上述三种算法共同特点:仅对值函数进行估计,动作选择策略则由值函数的估计完全确定。...原创 2020-06-16 15:03:03 · 2157 阅读 · 0 评论 -
强化学习1——基本概念及研究现状
一、强化学习基本概念强化学习(Reinforcement Leraning,又称再励学习,评价学习)是一种重要的机器学习算法。原创 2020-05-14 10:42:11 · 2353 阅读 · 0 评论