自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 吴恩达深度学习课程笔记——梯度下降算法和向量化

梯度下降算法和向量化逻辑回归中的梯度下降单样本梯度下降向量化多样本梯度下降逻辑回归中的梯度下降梯度下降法的作用是:在测试集上,通过最小化代价函数J(w,b)J(w,b)J(w,b)来训练的参数www和bbb。w:=w−a∂J(w,b)∂ww:=w-a\frac{\partial J(w,b)}{\partial w}w:=w−a∂w∂J(w,b)​b:=w−a∂J(w,b)∂bb:=w-a\frac{\partial J(w,b)}{\partial b}b:=w−a∂b∂J(w,b)​:=:=:

2021-10-11 22:23:07 355 1

原创 吴恩达深度学习课程笔记——逻辑回归算法

2.1二分类问题二分类问题(binary classification)。首先我们从一个问题开始说起,这里有一个二分类问题的例子,假如你有一张图片作为输入,比如这只猫,如果识别这张图片为猫,则输出标签1作为结果;如果识别出不是猫,那么输出标签0作为结果。...

2021-09-29 18:45:00 547

原创 GIT仓库基本使用操作

GIT仓库基本使用操作引言Git的操作知识可以分成三层:本地仓库的管理(本地搭建git环境,add,commit,版本管理,分支管理等)本地仓库与远程仓库的交互(clone,push,pull,多人协同开发等)远程仓库的管理(部署服务器,数据的备份、迁移、恢复等)普通开发者需要精通前两层,了解第三层。1、Git基本知识1.1 背景Git是目前世界上最先进的分布式版本控制系统分布式:不依赖中央服务器 ,更加灵活安全版本控制:保存历史版本与修改记录,分支管理Workspace:工作

2021-01-08 11:34:46 1195

原创 《深入浅出强化学习原理入门》学习笔记(七)DQN

《深入浅出强化学习原理入门》学习笔记(七)DQN及其变种1、Qleaning框架2、值函数逼近增量式学习:随机梯度下降法增量式学习:半梯度算法线性逼近批学习方法非线性化逼近:神经网络前向网络前向网络的反向求导3、卷积神经网络卷积运算池化典型卷积神经网络LeNet卷积神经网络的反向传播4、DQN:利用经验回放训练学习过程5、DQN:设置目标网络处理时间差分算法中的TD偏差6、DQN伪代码DQN采用的是Qleaning的基本框架,对Qlearning的修改主要体现在以下三个方面。(1)DQN利用深度卷积神经

2020-12-10 19:13:15 580

原创 《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法1、时间差分方法与动态规划方法和蒙特卡罗方法的差异(1)动态规划方法(2)蒙特卡罗方法(3)时间差分方法时间差分(Temporal-Difference,简称TD)方法是一种无模型的强化学习方法,也是强化学习理论中最核心的内容。1、时间差分方法与动态规划方法和蒙特卡罗方法的差异与动态规划方法和蒙特卡罗方法相比,时间差分方法的主要不同在于值函数的估计。(1)动态规划方法(2)蒙特卡罗方法(3)时间差分方法...

2020-12-04 20:26:22 392

原创 实验室服务器的连接,交互,anaconda安装和环境配置,pytorch安装

服务器连接与使用1、Xshell2、Xftp3、安装anaconda3并新建环境4、安装pytorch1、Xshell我的电脑是win10系统,连接实验室的Linux系统服务器,选用Xshell软件,连接方式为用户名密码登录,参考了这篇文章。连接成功之后界面如下图2、Xftp使用Xftp交互图形化软件管理服务器文件,使用方法和Xshell相同,下载安装参考 这篇文章。连接成功之后界面如下图,左侧是win10桌面,右侧是服务器目录。直接使用鼠标左键拖拽文件即可上传,在服务器目录中双击文件即可下载

2020-12-04 19:51:59 1442 2

原创 《深入浅出强化学习原理入门》学习笔记(五)基于Python实现策略迭代方法和值迭代方法

《深入浅出强化学习原理入门》学习笔记(五)基于Python和gym实现策略迭代方法和值迭代方法1、策略迭代方法策略评估策略改善值迭代方法最优控制和强化学习比较1、策略迭代方法python代码包括策略评估和策略改善两个子程序,两个子程序交替运行,使得策略逐渐优化收敛。策略评估包含两个循环。第一个循环为1000次,保证值函数收敛到该策略对应的真实值函数。第二个函数为整个状态空间的扫描,保证状态空间的每一点的值函数都得到估计。在第二个循环中用到了系统的模型,因为模型已知,所以智能体无需实际采用这个动作

2020-12-01 11:14:42 1348

原创 《深入浅出强化学习原理入门》学习笔记(四)基于模型的动态规划方法

《深入浅出强化学习原理入门》学习笔记(四)基于模型的动态规划方法值函数计算高德-赛德尔迭代求解值函数线性方程策略评估算法利用值函数进行策略改善,找到最优策略策略迭代算法值函数迭代算法最优控制强化学习的直观目标是找到最优策略,目的是更好地完成任务。回报函数对应着具体的任务,所以强化学习所学到的最优策略是与具体的任务相对应的。从这个意义上来说,强化学习并不是万能的,它无法利用一个算法实现所有的任务。从广义上讲,强化学习可以归结为序贯决策问题,即找到一个决策序列u0*-u1*-u2*-u3*-----uτ*使

2020-11-27 17:18:54 543

原创 习题:基于gym环境构建迷宫世界

迷宫世界效果演示环境测试代码测试代码的调用环境构建代码效果演示迷宫世界的最终演示效果如图。黑色为墙不可通行,白色为道路可通行,黄色为出口。环境测试代码# 环境测试import gymimport randomimport timeenv=gym.make('MazeWorld-v0')env.reset()reward=0while True: action = env.actions[int(random.random()*len(env.actions))]

2020-11-26 20:30:27 2605 2

原创 机器人找金币问题环境测试优化

机器人找金币问题,实例要求和代码见我的上一篇博客链接: 《深入浅出强化学习原理入门》学习笔记(三)机器人找金币应用实例.测试环境时,书中的示例代码如下。import gymenv = gym.make('GridWorld-v0')env. reset ()env. render ()但是我发现这段代码不能表现出机器人的状态变化,所以对进行了修改,加入循环判断和时延,并打印出总的反馈reward,让机器人找到金币的过程动态显示出来。以下是修改后的代码。# 环境测试import gym.

2020-11-26 20:14:10 568 1

原创 pycharm界面分屏指令

Window–Editor Tabs --split vertically 左右分屏Window–Editor Tabs --split Horizontally 上下分屏

2020-11-26 19:15:20 500

原创 Pycharm工程使用anaconda安装环境

Pycharm工程使用anaconda安装环境我们通常使用anaconda安装框架和包,但是习惯于使用pycharm来开发,但是在运行程序时往往会提示import不进来需要的环境。这是因为anaconda的环境默认装在anaconda3/envs/目录下,pycharm默认使用系统的python,不会调用到我们已经配置好的conda深度学习框架,需要手动设置添加环境以及编译器。下面详细介绍配置的方法:在已经新建的工程界面选择file-settings在Project:Project Interpr

2020-11-26 19:08:06 236

原创 建立自己的gym环境并调用

建立自己的gym环境并调用gym构建环境并调用的四个步骤环境文件中的必备要素机器人找金币的实例实际上就是在教我们利用现有的openAI环境建立自己的gym环境并进行调用。gym搞深度强化学习,训练环境的搭建是必须的,因为训练环境是测试算法,训练参数的基本平台。现在大家用的最多的是openai的gym或者universe。这两个平台非常好,是通用的平台,而且与tensorflow和Theano无缝连接,目前只支持python语言。gym的安装官网介绍的非常清楚链接: https://gym.open

2020-11-24 15:06:43 11658 4

原创 《深入浅出强化学习原理入门》学习笔记(三)机器人找金币应用实例

《深入浅出强化学习原理入门》学习笔记(三)MDP应用实例

2020-11-24 14:08:29 2811 6

原创 在anaconda用pip命令查看安装包的路径

查看用pip命令安装的包的路径pip show 安装的包的名称例如pip show gym图中显示了GYM包的安装路径,安装版本,作者等关键信息。

2020-11-24 12:23:01 2878

原创 《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程

《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程1、MDP过程(1)马尔科夫性(2)马尔科夫过程(3)马尔科夫决策过程2、MDP过程中的概率学知识3、MDP过程应用实例1、MDP过程强化学习的过程是动态的、不断交互的过程,所需要的的数据也是通过和环境不断交互产生的,很像人的学习过程,解决的是决策的问题。深度学习如图像识别和语音识别解决的是感知的问题。人工智能的最终目的是通过感知进行智能决策。所以近年来发展起来的深度学习技术和强化学习算法结合产生的深度强化学习算法是人类实现人工智能终极目的

2020-11-23 20:53:45 414

原创 《深入浅出强化学习原理入门》学习笔记(一)总结与绪论

《深入浅出强化学习原理入门》学习笔记(一)总结与绪论1、《深入浅出强化学习》总结2、强化学习3、序贯决策问题4、马尔科夫决策过程5、动态规划算法6、强化学习算法演进的两个关键时间节点7、强化学习算法分类8、强化学习基本框架9、强化学习仿真环境gym(1)选用gym平台的原因(2)gym环境的安装(3)深入剖析gym环境的构建1、《深入浅出强化学习》总结《深入浅出强化学习》包含绪论和四个篇章,全书分为两条线索:第一条线索是强化学习的基本算法。绪论讲解了强化学习的是什么,可以解决什么问题,怎样解决问题,

2020-11-20 17:08:27 1167

原创 Windows系统下在Anaconda中安装gym环境

gym环境在Windows系统下的安装步骤1、下载并安装Anaconda2、利用Anaconda建立一个虚拟环境3、安装gym1、下载并安装Anaconda下载安装Anaconda的方法已经有作者整理地非常好了,可以参考这篇博客链接: Anaconda 的安装教程(图文).我安装的是Anaconda3-conda 4.8.5版本。可以在Anaconda Prompt中输入conda -V指令,查询Anaconda3的具体版本号。我安装的是Python 3.8.5版本。可以在Anaconda Pr

2020-11-20 16:39:06 4900 1

原创 莫烦强化学习笔记整理(十)Asynchronous Advantage Actor-Critic (A3C)

莫烦强化学习笔记整理(十)Asynchronous Advantage Actor-Critic (A3C)1、A3C 要点2、A3C 算法actor与critic网络单个workerworker并行工作链接: A3C代码.1、A3C 要点A3C是Google DeepMind 提出的一种解决 Actor-Critic 不收敛问题的算法。它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数,并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交

2020-11-16 21:18:53 513

原创 莫烦强化学习笔记整理(九)DDPG

莫烦强化学习笔记整理(九)DDPG1、DDPG 要点2、DDPG 算法actorcriticactor与critic结合类似于DQN的记忆库回合更新链接: DDPG代码.1、DDPG 要点DDPG是Google DeepMind 提出的一种使用 Actor Critic 结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作的预测。DDPG 结合了之前获得成功的 DQN 结构, 提高了 Actor Critic 的稳定性和收敛性。2、DDPG 算法actor前半部分 grad[Q

2020-11-16 21:00:16 2079

原创 莫烦强化学习笔记整理(八)Actor Critic

莫烦强化学习笔记整理(八)Actor Critic1、Actor Critic 要点总结优势劣势2、Actor Critic 算法ActorCritic回合更新链接: Actor Critic代码.1、Actor Critic 要点总结Actor Critic 是一种结合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法。Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据

2020-11-16 20:30:23 475

原创 莫烦强化学习笔记整理(七)Actor Critic,DDPG,A3C概述

莫烦强化学习笔记整理(七)Actor Critic,DDPG,A3C概述1、Actor Critic概述2、DDPG概述(1)Deep(2)Deterministic Policy Gradient(3)DDPG神经网络3、A3C概述(1)平行训练(2)多核训练1、Actor Critic概述Actor Critic是强化学习中的一种结合体, 它合并了 以值为基础 (比如 Q learning) 和 以动作概率为基础 (比如 Policy Gradients) 两类强化学习算法。Actor-Crit

2020-11-13 16:56:40 2245

原创 jupyter notebook的使用整理--修改jupyter notebook的工作路径

修改jupyter notebook的工作路径windows系统在菜单栏里修改点击鼠标右键,选择属性。将下图1和2的地方都替换成,你自己的“notebook工作文件夹”(最好是自己新建个空的文件夹,然后路径修改成这个文件夹的路径)修改后记得保存文件。例如 我自己电脑上新建的一个空文件夹是c:\lxsjupyter,修改后如下:修改后点击"确定"按钮,然后再启动notebook就生效了。修改工作路径之后的jupyter很干净,只有自己的工作文件。...

2020-11-11 22:19:59 313

原创 jupyter notebook的使用整理--.ipynb文件和.py文件的相互转化

jupyter的使用记录整理1、jupyter notebook中.ipynb文件和.py文件的相互转化(1)jupyter notebook 生成py文件(2)jupyter notebook 加载py文件(即转为ipynb文件)2、修改jupyter notebook的工作路径1、jupyter notebook中.ipynb文件和.py文件的相互转化(1)jupyter notebook 生成py文件法一:在xxx.ipynb所在目录下,打开终端,并输入命令:jupyter nbconver

2020-11-11 22:18:29 587

原创 莫烦强化学习笔记整理(六) Policy Gradients

莫烦强化学习笔记整理(六) Policy Gradients1、Policy Gradients基本算法(1)与Value-based 方法的区别(2)REINFORCE 基本算法(3)主要更新循环代码2、思维决策(1)Policy Gradients代码主结构1、Policy Gradients基本算法(1)与Value-based 方法的区别Policy Gradients区别于Value-based 方法(Q-learning和Sarsa等)最大的不同是:输出的不是 action 的 value

2020-11-11 20:27:01 909

原创 莫烦强化学习笔记整理(五) DQN-part2

莫烦强化学习笔记整理(四) DQN-part2openAI gym环境库Double DQNDQN with Prioritized ReplayDueling DQNopenAI gym环境库Double DQNDQN with Prioritized ReplayDueling DQN

2020-11-11 16:51:43 1400 2

原创 莫烦强化学习笔记整理(四) DQN-part1

莫烦强化学习笔记整理(四)DQN-part1什么是DQNDQN算法更新DQN神经网络DQN思维决策openAI gym环境库Double DQNDQN with Prioritized ReplayDueling DQNDQN-part1)什么是DQNDQN算法更新DQN神经网络DQN思维决策openAI gym环境库Double DQNDQN with Prioritized ReplayDueling DQN...

2020-11-05 19:34:53 1335 6

原创 莫烦强化学习笔记整理(三)Sarsa

莫烦强化学习笔记整理(三)Sarsa1、什么是sarsa2、sarsa算法更新3、sarsa思维决策(1)主classRL(2)Q-leaning Table简化(3)SarsaTable简化4、sarsa-lambda1、什么是sarsaSarsa 的行为决策和 Q learning 相同, 使用是 Q 表的形式决策, 在 Q 表中挑选较大的动作值施加在环境中来换取奖惩,但是更新方式与Q learning不同,主要区别就是Sarsa把Q-learning中的maxQ(S’,a’)替换成了Q(S’,a’

2020-11-05 17:02:48 610 3

原创 莫烦强化学习笔记整理(二)Q-learning

莫烦强化学习笔记整理

2020-11-02 21:47:21 1325 3

原创 莫烦强化学习笔记整理(一)

莫烦强化学习笔记整理(一)RL简介1、什么是强化学习(1)简介(2)RL、监督学习、无监督学习、半监督学习的对比2、RL分类方法汇总(1)Modelfree 和 Modelbased(2)基于概率 和 基于价值(3)回合更新 和 单步更新(4)在线学习 和 离线学习3、常用RL模块(一)RL简介)1、什么是强化学习(1)简介强化学习是一类算法,让计算机在不断的尝试中更新自己的行为准则,最后找到规律学会达到目的的方法,这就是一个完整的强化学习过程。在强化学习中,一种行为的分数是十分重要的,所以强化

2020-10-30 17:31:00 1108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除