![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习笔记
文章平均质量分 92
Atarasin
这个作者很懒,什么都没留下…
展开
-
深度强化学习笔记之PPO实现细节(2)
强化学习笔记之PPO的实现细节(2)本文主要参考于Coding PPO from Scratch with PyTorch系列,但本文并不会像该系列一样手把手讲解全部的实现细节,只是记录一下自己在实现过程中遇到的一些问题和思考。下图是采用Clipped Surrogate Objective的PPO伪代码,本文的代码实现主要根据它来实现。1.构建目标函数PPO算法的实现重点,就是为了得到上图中的两个目标函数。也就是说,我们只要可以构造出式(1)和式(2)作为损失函数,基本就实现了PPO。θk+1原创 2021-05-27 14:59:23 · 2634 阅读 · 3 评论 -
深度强化学习笔记之PPO算法理解(1)
深度强化学习笔记之PPO算法理解(1)笔记内容来源于李宏毅老师的深度强化学习的PPT。关于PPO(Proximal Policy Optimization),李老师分为了三个部分进行了介绍。Policy Gradient:该方法是PPO的前身,与基于价值的强化学习方法不同,策略梯度法是对策略进行更新;On-policy | Off-policyAdd constraint:对Policy Gradient进行一些限制,前者就变成了PPO。1.Policy Gradient与基于价值的强化原创 2021-05-27 14:51:56 · 8264 阅读 · 3 评论 -
机器学习笔记(5):Classification
机器学习笔记(5):Classification与其它的机器学习问题相同,分类问题的本质也是去寻找一个模型(function),它可以接收一个特征向量,然后输出一个类别。从表面上看,分类问题与回归问题十分类似,那么可不可以用处理回归问题的思想去处理分类问题呢?比如一个3分类问题,我把模型的输出标签分别设置为1、2、3。在训练时,如果输入的真实类别为1,那么我就训练使模型的输出往1靠拢,其它的也是如此。然后在测试时,判断模型的输出与哪一个类别值(1,2,3)接近,最接近的就是输入的类别。看上去似乎很合原创 2021-05-07 20:20:47 · 556 阅读 · 3 评论 -
DQN初探之学习Breakout-v0
DQN初探之学习"Breakout-v0"本文记录了我初次使用DQN训练agent完成Atari游戏之"Breakout-v0"的过程。整个过程仿照DeepMind在nature发表的论文"Human-level control through deep reinforcement learning"。1.gym环境之"Breakout-v0"1.1.环境的状态空间和动作空间首先确定"Breakout-v0"的动作空间和状态空间,其状态是游戏截图。env = gym.make('Breakout-原创 2021-05-05 17:07:03 · 5568 阅读 · 10 评论 -
机器学习笔记(2):Guideline of ML
机器学习笔记(2):Guideline of ML上个笔记提到了机器学习的大致流程就是先选择一个合适模型,然后定义一个损失函数和选择一个优化算法,然后用训练数据进行训练。当训练结束后,我们就可以把这个优化好的模型应用于真实的数据中。事情似乎很简单,好像根本不需要人为的干预,我们只需要把数据交给计算机,然后就等机器训练好就完了。但是在实际训练模型的过程中,我们往往会遇到各种各样的问题,比如模型的损失值一直不下降、训练损失很小但测试损失却很大等等。这些问题都需要我们人为来进行识别然后去想办法解决。1.G原创 2021-04-11 20:11:11 · 513 阅读 · 0 评论 -
机器学习笔记(1):深度学习基本概念简介
机器学习笔记(1):深度学习基本概念简介在李宏毅老师最新的机器学习课程中,以一种极为精彩的方式从机器学习引入了深度学习,并且相当直观地解释了神经网络可以拟合任意曲线的原因,让我受益良多。于是,就有了这篇博客。注:下文的所有图片均来自李老师的PPT。机器学习模型训练的大致流程如下图所示,总共分为三个步骤:选择一个合适的带有未知参数的函数(或模型);定义一个损失函数,如MSE,若输出是概率,那么也可能是Cross-Entropy;选择一种优化器,通过训练数据来优化函数的参数。关于后两步的内容原创 2021-04-10 23:14:00 · 284 阅读 · 0 评论