从入门到放弃:强化学习小白版(一)
这次强化学习,打算认真写一个学习笔记,欢迎各位指点,互相讨论。
小白入门,理解困难,更新比较慢。
主要参考郭宪的内容。https://edu.csdn.net/huiyiCourse/series_detail/76?utm_source=bar
一、强化学习能解决的问题
主要是智能决策问题,可用于非线性控制、视频游戏、下棋、机器人、人机对话、无人驾驶、机器翻译、文本序列预测等领域
二、强化学习与其它机器学习的联系和区别
深度学习解决的是智能感知问题
相同点:都是从数据中学习
不同点:
1)需要的数据类型不同。监督学习需要标签数据,强化学习需要的是交换数据。
2)优化目标不同。
传说坑点:强化学习直接使用没有坏数据的数据集,可能会在实际应用中遇到坏数据时效果不好
三、强化学习如何解决问题
四、强化学习分类
根据是否依赖模型分为:基于模型的强化学习和无模型的强化学习
根据策略更新方法:基于值函数的强化学习,基于直接策略搜索的强化学习,ES方法和GA方法。
根据回报函数是否已知分为:正向强化学习和逆向强化学习
根据任务大小和多少分为:分层强化学习、元强化学习、多智能体强化学习、迁移学习等
五、强化学习入门路线图
1、搞清楚马尔科夫决策过程的概念
2、抓住强化学习的基本迭代过程:策略评估和策略改善
3、掌握强化学习最常用的两种方法:基于值函数的方法和基于直接策略搜索的方法
4、强化学习的其它方法:AC框架,基于模型的强化学习,基于记忆的强化学习等等
六、学习用的工具包——Gym
Gym is a toolkit for developing and comparing reinforcement learning algorithms.
详见另一篇博客:gym
七、常见英文缩写意思
machine learning:
机器学习
RL:
Reinforcement Learning强化学习
DQN:
我的理解大概是q-learning+CNN的方法
Deep Q Network
DQN 是第一个成功地将深度学习和强化学习结合起来的模型,启发了后续一系列的工作。
另外要说明的一点是DQN已被Google申请专利,因此只能做研究用,不能商用。
DRL:
深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习End-to-End Learning的一种全新的算法。简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted engineering的工作。深度增强学习具备使机器人实现真正完全自主的学习一种甚至多种技能的潜力。
CNN:
卷积神经网络(Convolutional Neural Network,CNN)
RNN:
DNN:
Q-Learning:
ES:
进化策略
GA:
遗传算法,Genetic Algorithm
https://baike.baidu.com/item/%E9%81%97%E4%BC%A0%E7%AE%97%E6%B3%95/838140?fr=aladdin
MDP:
马尔可夫决策过程
POMDP:
部分可知马尔科夫决策过程