学习控制
文章平均质量分 56
致知在格物,物格而后知至
这个作者很懒,什么都没留下…
展开
-
强化学习点滴- model-free vs. model-based; on-policy vs. off-policy
Model-free:不需要知道状态之间的转移概率(transition probability),仅仅依赖agent和environment进行实时的交互。并不一定使用当前策略产生的样本。Model-free method attempts to learn the optimal policy in ONE step, such as Q-learning, which learns the optimal policy in the environment after certain itera原创 2021-04-15 18:03:53 · 426 阅读 · 0 评论 -
机器人与人工智能领域:协同与协作的区别?
可以参考如下关于系统优化、协同与协作的理解,不一定完全正确,是作者个人观点。《系统优化、合作/协作和协同的区别》链接地址:http://blog.sciencenet.cn/blog-39554-483187.html在此基础上,讨论个人的理解。协同:强调同步性;强调个体的相互影响的客观事实;协作:不强调同步性;较少关注个体行为; 二者都回带来额外的价值,与系统优化相比。协作的英文有:cooperative , collaborative, coordinated共融机器人中:原创 2021-03-18 14:45:43 · 3799 阅读 · 0 评论 -
自动驾驶的三种控制范式
自动驾驶导航问题可以描述为从感知输入(sensory input)到控制输出(control output)的映射函数,并实现这一函数,目前有三种主要的方法:modular pipelines (MP)MP将自动驾驶问题分成更小、更容易的子问题: 感知、路径规划和控制。该方法通常依赖于各种传感器,产生周围环境的一致表示(consistent representation)。然后基于该表示做出驾驶决定。尽管MP由于其模块性而相对可解释(interpretable),但它们依赖于人工选择的复杂中间(inte原创 2021-03-02 18:00:12 · 569 阅读 · 0 评论 -
强化学习中的episode如何理解和翻译?
1. episode的感性理解强化学习中,episode是个重要的术语。那么episode应该如何理解呢?An episode is one complete play of the agent interacting with the environment in the general RL setting. Episodic tasks in RL means that the game of trying to solve the task ends at a terminal stage or原创 2020-11-10 20:24:59 · 13427 阅读 · 3 评论 -
有关**迭代学习**控制的一些基本概念
有关迭代学习控制的一些基本概念这一篇主要讲一些在学习控制研究领域中常常遇到的基本概念和专业的英语表述方式,相当于先入门吧.原创 2016-02-16 15:31:47 · 1696 阅读 · 0 评论