中科院自动化所第五届深度强化学习研讨会笔记

从数学与信息处理的视角看模仿学习

一、Basis of Behaviour AI

 介绍了控制理论的发展历史和相关代表性人物及其理论。
 人工智能的发明和使用是人类进入智能时代,人工智能可以成为任务的执行者,也能成为动作指令的发出者。
 机器有像人一样的大脑(信息处理中枢)、眼耳鼻(传感器)、手(动作的执行器)。
在这里插入图片描述

 知行体的提出和与智能体的比较

在这里插入图片描述
在这里插入图片描述

 人工智能的发展:
  符号主义-》联结主义-》感知主义

二、Mathematics and AI

AI-Based Method VS. Control-Based

在这里插入图片描述

 数学问题的解决
在这里插入图片描述

 数学解决问题的过程较为复杂严谨,难以精确表示实际问题。
 之后举了动态纹理的例子,来解析如何通过将AI和控制相结合解决状态映射问题。

RL from Imperfect Supervision

在这里插入图片描述

 Imitation Learning from Observations
  通过观察来指导完全信息下的模仿学习
 Task Transferring from Expert Preference

 RL from Inaccurate Demonstrations

这部分讲得比较快,没有听明白
之后举了钢琴手、唐笛的例子,来说了相关模仿学习的应用

三、Research Prospects

 介绍了两个未来的发展方向,最后老师赋诗一首。

  


面向智能制造的认识计算与深度学习

一、个人相关工作的介绍

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、国内外现状及趋势分析

在这里插入图片描述

 举了磁性材料的例子,说明了磁性材料智能制造过程存在不足,开展面向智能制造的认知计算是十分有必要的。并存在如下挑战:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
 解决挑战难题的途径:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
 之后讲了课题组中的两个课题中多个任务的解决策略。
 直播太卡了,PPT看不清,老师讲得太快了。脑子就和彩虹糖一样。。。
 最后,文老师和赵老师的讨论还是很精彩的!

Experience Replay in Deep Reinforcement Learning(深度强化学习中的经验回放机制)

在这里插入图片描述

一、DRL

1.1 Brief History of AI

 强化学习的基本概念与相关知识

1.2 Reinforcement Learning

 介绍了MDP、自动化领域里从控制角度解释RL、RL中的值迭代和策略迭代
在这里插入图片描述
 深度学习可以处理高维信息,可以有效解决强化学习的维度灾难等问题。将两者相结合,有更广的应用范围。
 以DQN为例,介绍了深度强化学习。

1.3 Key Issues in RL

在这里插入图片描述

二、Experience Replay

在这里插入图片描述
在这里插入图片描述
 样本无差别进行取样经验回访,进行学习。基于优先级的经验回放机制为了避免均一化,在DDPG上进行了实现。
在这里插入图片描述

三、Deep Curriculum Reinforcement Learning

想法1:案例从易到难进行学习
想法2:经验回放中多次被学习的案例应该被降低权重,在之后被较少地学习
在这里插入图片描述

四、DRL with Quantum-inspired Experience Replay(QER)

 从量子计算相关工作受到启发,将量子机制加到经验回放中。将经验池中的经验编码为量子形式,使用Grover迭代机制(量子相关知识)计算每个经验被回放的概率。
在这里插入图片描述
 测试结果
在这里插入图片描述

 相比于DCRL,调参过程难度降低,给出了比较自然的参数选择。

五、Future work

 增量式的强化学习中,经验回放机制的运用
在这里插入图片描述

 在实际系统中,使用经验回放机制。如果不再使用TD-error,机制是否还有效。


强化学习及其自动驾驶应用探讨(Apply Reinforcement Learning in Autonomous Vehicle Design)

在这里插入图片描述
在这里插入图片描述
 强化学习在自动驾驶中的应用
在这里插入图片描述
在这里插入图片描述
 强化学习<——>最优控制
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
 RL方法的总结与分类
在这里插入图片描述

 离线学习和在线学习
在这里插入图片描述

工作1:Distributional Soft Actor-Critic

为了解决过估计问题,采用分布式的方法,压制过估计的误差。在MuJoCo环境进行了测试,选取了5个任务。
在这里插入图片描述
在这里插入图片描述

工作2:Mixed Actor Critic

 既有模型,又有数据的RL算法。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
 添加了迭代贝叶斯估计
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

在这里插入图片描述

General Game AI with Statistical Forward Planning Algorithms

 Simon Lucas教授全英文讲的,中间有点事出去了。英语听力和专业词汇有些不足,中间听了一部分也没怎么听懂,就不瞎写笔记了。

Communication-efficient and privacy-preserving federated learning

 有效通信和隐私保护的联邦学习
 相比于中心式学习和分布式学习,联邦学习更注重数据安全和有效通信。
 联邦学习不直接传数据,而是传模型相关的有关信息。
在这里插入图片描述
 今天介绍的是水平分割为主,分布在不同终端,每个终端的信息格式是一样的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

异步学习架构

 分层更新:在部分轮数,不更新所有参数,只更新浅层部分,以减少通信成本。
 分时更新:在某些时间点,更新对应参数,而不是全局更新。

在这里插入图片描述
在这里插入图片描述

三值加权的神经网络

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

隐私性和安全性

在这里插入图片描述
 虽然传的是参数,但通过GAN等模型可以反向推断出来,所以加密是必要的。分布式密钥生成进行加密通信,之后讲了具体工作,以及实验情况。
在这里插入图片描述

总结

在这里插入图片描述

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小郁同学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值