- 博客(133)
- 资源 (2)
- 收藏
- 关注
原创 强化学习 OpenAI Gym Universe Docker在Windows WSL 2安装配置最全的全记录
1. 事情的起源全记录事情的起源是为了学习Python强化学习实战,先在自己的windows操作系统的Pycharm+Anaconda+Gym配置下运行成功了CartPole示例和CarRacing示例,接着运行Universe,据说OpenAI Universe需要在Docker的镜像下运行,在安装Docker的时候偶然遇到了WSL 2,既然windows有WSL 2的Linux环境,那么直接在Linux分发上做运行,然而从此事情变得不简单了。2. 在Win10家庭版上安装Docker下载安装Doc
2021-02-02 10:58:58 2463 9
原创 强化学习学习记录-一些碎片
马尔可夫过程MDP是一种建模方法,很多问题都在用马尔可夫建模强化学习其实是一种模式套路目标Q网络和预测Q网络→目标Q网络中有一步是真实的,其余是预测的,预测Q网络中全部是预测的,隔一段时间用预测Q网络的参数去更新目标Q网络的参数奖励函数设计...
2024-03-06 17:00:00 424
原创 PPO玩Pendulum倒立摆代码(一个Actor网络)Pytorch实现
PPO玩Pendulum倒立摆代码(一个Actor网络)Pytorch实现
2023-07-03 11:18:43 402
原创 PPO玩Pendulum倒立摆代码(两个Actor网络)Pytorch实现
PPO玩Pendulum倒立摆代码(两个Actor网络)Pytorch实现
2023-07-03 11:11:54 712
原创 PPO算法基本原理及流程图(KL penalty和Clip两种方法)
PPO算法基本原理及流程图(KL penalty和Clip两种方法)
2023-06-30 17:06:28 16216 5
原创 PolicyGradient算法玩CartPole和MountainCar代码Pytorch版本
PolicyGradient算法玩CartPole倒立摆和MountainCar小车爬山的Pytorch版本代码
2023-06-29 15:24:51 263 1
原创 DQN基本概念和算法流程(附Pytorch代码)
DQN,Deep Q Network本质上还是Q learning算法,它的算法精髓还是让Q估计尽可能接近Q现实,或者说是让当前状态下预测的Q值跟基于过去经验的Q值尽可能接近。在后面的介绍中Q现实也被称为TD Target相比于Q Table形式,DQN算法用神经网络学习Q值,我们可以理解为神经网络是一种估计方法,神经网络本身不是DQN的精髓,神经网络可以设计成MLP也可以设计成CNN等等,DQN的巧妙之处在于两个网络、经验回放等trick。
2023-04-14 14:46:23 10726 1
原创 学习心得:人工智能学会CAAI常务理事张学工教授《AI技术前沿:从ChatGPU到更多突破》
学习心得:人工智能学会CAAI常务理事张学工教授《AI技术前沿:从ChatGPT到更多突破》
2023-03-07 16:57:39 215
原创 Abaqus2019+VS2019+Fortran子程序安装关联全过程亲测有效
Abaqus2019+VS2019+Fortran子程序安装关联全过程亲测有效
2022-10-30 11:47:05 4103 1
原创 【论文阅读】DEEPLY UNCERTAIN: COMPARING METHODS OF UNCERTAINTY QUANTIFICATION IN DEEP LEARNING ALGORITHM
深度学习不确定性量化算法论文阅读分享。这是本人研究工作相关的首篇论文阅读分享,欢迎点赞、关注、收藏
2022-10-24 22:31:36 1016 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人