文章目录
从数学与信息处理的视角看模仿学习
一、Basis of Behaviour AI
介绍了控制理论的发展历史和相关代表性人物及其理论。
人工智能的发明和使用是人类进入智能时代,人工智能可以成为任务的执行者,也能成为动作指令的发出者。
机器有像人一样的大脑(信息处理中枢)、眼耳鼻(传感器)、手(动作的执行器)。
知行体的提出和与智能体的比较
人工智能的发展:
符号主义-》联结主义-》感知主义
二、Mathematics and AI
AI-Based Method VS. Control-Based
数学问题的解决
数学解决问题的过程较为复杂严谨,难以精确表示实际问题。
之后举了动态纹理的例子,来解析如何通过将AI和控制相结合解决状态映射问题。
RL from Imperfect Supervision
Imitation Learning from Observations
通过观察来指导完全信息下的模仿学习
Task Transferring from Expert Preference
RL from Inaccurate Demonstrations
这部分讲得比较快,没有听明白
之后举了钢琴手、唐笛的例子,来说了相关模仿学习的应用
三、Research Prospects
介绍了两个未来的发展方向,最后老师赋诗一首。
面向智能制造的认识计算与深度学习
一、个人相关工作的介绍
二、国内外现状及趋势分析
举了磁性材料的例子,说明了磁性材料智能制造过程存在不足,开展面向智能制造的认知计算是十分有必要的。并存在如下挑战:
解决挑战难题的途径:
之后讲了课题组中的两个课题中多个任务的解决策略。
直播太卡了,PPT看不清,老师讲得太快了。脑子就和彩虹糖一样。。。
最后,文老师和赵老师的讨论还是很精彩的!
Experience Replay in Deep Reinforcement Learning(深度强化学习中的经验回放机制)
一、DRL
1.1 Brief History of AI
强化学习的基本概念与相关知识
1.2 Reinforcement Learning
介绍了MDP、自动化领域里从控制角度解释RL、RL中的值迭代和策略迭代
深度学习可以处理高维信息,可以有效解决强化学习的维度灾难等问题。将两者相结合,有更广的应用范围。
以DQN为例,介绍了深度强化学习。
1.3 Key Issues in RL
二、Experience Replay
样本无差别进行取样经验回访,进行学习。基于优先级的经验回放机制为了避免均一化,在DDPG上进行了实现。
三、Deep Curriculum Reinforcement Learning
想法1:案例从易到难进行学习
想法2:经验回放中多次被学习的案例应该被降低权重,在之后被较少地学习
四、DRL with Quantum-inspired Experience Replay(QER)
从量子计算相关工作受到启发,将量子机制加到经验回放中。将经验池中的经验编码为量子形式,使用Grover迭代机制(量子相关知识)计算每个经验被回放的概率。
测试结果
相比于DCRL,调参过程难度降低,给出了比较自然的参数选择。
五、Future work
增量式的强化学习中,经验回放机制的运用
在实际系统中,使用经验回放机制。如果不再使用TD-error,机制是否还有效。
强化学习及其自动驾驶应用探讨(Apply Reinforcement Learning in Autonomous Vehicle Design)
强化学习在自动驾驶中的应用
强化学习<——>最优控制
RL方法的总结与分类
离线学习和在线学习
工作1:Distributional Soft Actor-Critic
为了解决过估计问题,采用分布式的方法,压制过估计的误差。在MuJoCo环境进行了测试,选取了5个任务。
工作2:Mixed Actor Critic
既有模型,又有数据的RL算法。
添加了迭代贝叶斯估计
总结
General Game AI with Statistical Forward Planning Algorithms
Simon Lucas教授全英文讲的,中间有点事出去了。英语听力和专业词汇有些不足,中间听了一部分也没怎么听懂,就不瞎写笔记了。
Communication-efficient and privacy-preserving federated learning
有效通信和隐私保护的联邦学习
相比于中心式学习和分布式学习,联邦学习更注重数据安全和有效通信。
联邦学习不直接传数据,而是传模型相关的有关信息。
今天介绍的是水平分割为主,分布在不同终端,每个终端的信息格式是一样的。
异步学习架构
分层更新:在部分轮数,不更新所有参数,只更新浅层部分,以减少通信成本。
分时更新:在某些时间点,更新对应参数,而不是全局更新。
三值加权的神经网络
隐私性和安全性
虽然传的是参数,但通过GAN等模型可以反向推断出来,所以加密是必要的。分布式密钥生成进行加密通信,之后讲了具体工作,以及实验情况。