从入门到放弃：强化学习小白版（一）

最新推荐文章于 2024-07-05 15:32:34 发布

天涯遍地是小草

最新推荐文章于 2024-07-05 15:32:34 发布

阅读量2.7k

点赞数

分类专栏：机器学习 Python 文章标签： Machine Learning 强化学习 reinforcement learning 机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012692537/article/details/79405339

版权

机器学习同时被 2 个专栏收录

7 篇文章 3 订阅

订阅专栏

7 篇文章 1 订阅

订阅专栏

从入门到放弃：强化学习小白版（一）

这次强化学习，打算认真写一个学习笔记，欢迎各位指点，互相讨论。

小白入门，理解困难，更新比较慢。

主要参考郭宪的内容。https://edu.csdn.net/huiyiCourse/series_detail/76?utm_source=bar

一、强化学习能解决的问题

主要是智能决策问题，可用于非线性控制、视频游戏、下棋、机器人、人机对话、无人驾驶、机器翻译、文本序列预测等领域

二、强化学习与其它机器学习的联系和区别

深度学习解决的是智能感知问题

相同点：都是从数据中学习

不同点：

1）需要的数据类型不同。监督学习需要标签数据，强化学习需要的是交换数据。

2）优化目标不同。

传说坑点：强化学习直接使用没有坏数据的数据集，可能会在实际应用中遇到坏数据时效果不好

三、强化学习如何解决问题

四、强化学习分类

根据是否依赖模型分为:基于模型的强化学习和无模型的强化学习

根据策略更新方法:基于值函数的强化学习,基于直接策略搜索的强化学习,ES方法和GA方法。

根据回报函数是否已知分为:正向强化学习和逆向强化学习

根据任务大小和多少分为:分层强化学习、元强化学习、多智能体强化学习、迁移学习等

五、强化学习入门路线图

1、搞清楚马尔科夫决策过程的概念

2、抓住强化学习的基本迭代过程：策略评估和策略改善

3、掌握强化学习最常用的两种方法：基于值函数的方法和基于直接策略搜索的方法

4、强化学习的其它方法：AC框架，基于模型的强化学习，基于记忆的强化学习等等

六、学习用的工具包——Gym

Gym is a toolkit for developing and comparing reinforcement learning algorithms.

详见另一篇博客：gym

七、常见英文缩写意思

machine learning：

机器学习

RL:

Reinforcement Learning强化学习

DQN:

我的理解大概是q-learning+CNN的方法

Deep Q Network

DQN 是第一个成功地将深度学习和强化学习结合起来的模型，启发了后续一系列的工作。

另外要说明的一点是DQN已被Google申请专利，因此只能做研究用，不能商用。

DRL:

深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习End-to-End Learning的一种全新的算法。简单的说，就是和人类一样，输入感知信息比如视觉，然后通过深度神经网络，直接输出动作，中间没有hand-crafted engineering的工作。深度增强学习具备使机器人实现真正完全自主的学习一种甚至多种技能的潜力。

CNN:

卷积神经网络（Convolutional Neural Network，CNN）

RNN:

DNN:

Q-Learning:

ES:

进化策略

GA:

遗传算法，Genetic Algorithm

https://baike.baidu.com/item/%E9%81%97%E4%BC%A0%E7%AE%97%E6%B3%95/838140?fr=aladdin

MDP:

马尔可夫决策过程

POMDP:

部分可知马尔科夫决策过程

天涯遍地是小草

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
从入门到放弃：强化学习小白版（一）

从入门到放弃：强化学习小白版（一）这次强化学习，打算认真写一个学习笔记，欢迎各位指点，互相讨论。小白入门，理解困难，更新比较慢。主要参考郭宪的内容。https://edu.csdn.net/huiyiCourse/series_detail/76?utm_source=bar一、强化学习能解决的问题主要是智能决策问题，可用于非线性控制、视频游戏、下棋、机器人、人机对话、无人驾驶、机器翻译、文本序列...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。