深度强化学习的常用算法——DQN，DDPG，PPO

禅与计算机程序设计艺术

已于 2023-08-05 02:53:10 修改

阅读量1.4k

点赞数

分类专栏： Python实战文章标签：自然语言处理人工智能语言模型编程实践开发语言架构设计

于 2023-08-05 01:48:04 首次发布

本文链接：https://blog.csdn.net/universsky2015/article/details/132114752

版权

Python实战专栏收录该内容

5694 篇文章 76 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

作者：禅与计算机程序设计艺术

1.简介

2015年末，机器学习已经成为人类与机器交互的新方式。近几年，随着强化学习在各个领域的广泛应用，深度强化学习也逐渐成为学术界和工业界研究的热点话题。
深度强化学习（Deep Reinforcement Learning）是基于机器学习和大数据等技术提出的一种新的机器学习方法。它利用大量的实时反馈信息和高维动作空间，通过学习从原始输入到执行动作的映射关系，从而解决复杂问题，取得比传统机器学习更好的效果。其中最著名的就是由OpenAI开发的强化学习库OpenAI Gym。
2015年开始，深度强化学习领域里，经历了DQN、DDPG和PPO等三大类算法的相继问世，并且每一个算法都展示出了其独有的性能优势。这些算法主要用于解决多种复杂的问题，包括机器人控制，对抗攻击，市场策略等方面。本文将简单介绍一下DQN、DDPG、PPO这三个算法以及它们的特点、原理、实现以及未来方向等。

DQN: Deep Q-Networks

算法原理及操作步骤

1.神经网络Q-network结构
在DQN算法中，使用了神经网络来表示状态和动作的价值函数。网络结构是一个两层的全连接网络，输入是环境观测特征，输出是一个Q值的向量，大小等于可选的动作数量。结构如下图所示：
2.目标网络和训练过程
从图中可以看到，训练过程中存在两个网络，一个称之为“目标网络”，另一个称之为“训练网络”。训练网络用于从环境中获取经验并更新参数，目标网络则用来生成下一步预测的目标值。为了保证训练网络不仅能够准确预测当前值，还能够快速接近目标网络，在

了解本专栏

超级会员免费看

禅与计算机程序设计艺术

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
6
评论
深度强化学习的常用算法——DQN，DDPG，PPO

2015年末，机器学习已经成为人类与机器交互的新方式。近几年，随着强化学习在各个领域的广泛应用，深度强化学习也逐渐成为学术界和工业界研究的热点话题。深度强化学习（Deep Reinforcement Learning）是基于机器学习和大数据等技术提出的一种新的机器学习方法。它利用大量的实时反馈信息和高维动作空间，通过学习从原始输入到执行动作的映射关系，从而解决复杂问题，取得比传统机器学习更好的效果。其中最著名的就是由OpenAI开发的强化学习库OpenAI Gym。
复制链接

扫一扫