自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 cs294-deepRL with Qfunction

回顾Qlearning问题在哪? 样本强相关、不是梯度下降相关性采样用replay buffer解决:多次采样采样放在一起但是,目标值没有梯度Q-learning 用目标网络经典DQN算法:更加通用的观点...

2019-07-23 22:10:40 93

原创 cs294-value function methods

在actor-critic中,忽略policy gradient策略迭代过程:策略迭代用动态规划简化动态规划:采用NN估计值函数拟合Q迭代为什么算法是off-policy在线Q-learning算法总结...

2019-07-23 21:28:50 93

原创 cs294-RL introduction

强化学习的种类model-based RL值函数policy gradientactor-critic: value function plus policy gradients为什么要有那么多的RL算法?协调因素:采样高效、稳定 不同假设:随机或确定、连续or离散、episode or infinite horizon 难度不同:策略展示简单还是模型展示...

2019-07-23 20:35:32 204

原创 强化学习之值函数估计

目录值函数估计介绍增量方法值函数估计介绍大规模的MDP,存在两个缺点:状态和动作过多。 计算太慢以至于不能学习到每个状态的值。三种估计的方式。函数逼近的方法增量方法表格查找法是值函数估计的特殊情况:增量预测算法基于MC的值函数估计广义策略迭代方法动作值函数估计控制算法的收敛...

2019-07-16 22:16:16 818

原创 强化学习之model free control

model free control 能解决什么问题?》策略迭代的基本操作贪心策略提高值函数:采用Monte Carlo 策略迭代,Greedy in the limit with infinite explorationMC 和 TD 控制的区别Sarsa算法On policy control with sarsa...

2019-07-10 15:07:29 180

原创 强化学习之动态规划

Dynamic Programming什么是DP,MDP为什么是DP?DP能解决什么问题?迭代策略评估:例子:如何提高策略?

2019-07-09 22:49:12 121

原创 强化学习之MDP

MPMP的过程 由state probability reward lambda决定案例如下所示:值函数V(s)MDP, S A P R lamdba决策变量定义值函数和状态值函数的定义:Bellman方程 计算关于Q下的VBellman方程 计算QBellman方程 计算V寻找最优Q 和V找到...

2019-07-09 21:24:56 417

转载 机器学习之机器学习基础

目录机器学习基础2.1 基本概念机器学习基础机器学习是人工智能的一个子集,目前已经发展出许多有用的方法,比如支持向量机SVM,回归Regression,决策树DT,随机森林randomForest,强化方法RL,集成学习ensemble,深度学习deeplearning等等,一定程度上可以帮助人们完成一些数据预测,自动化,自动决策,最优化等初步替代脑力的任务。本章我们主要介绍下机...

2019-07-08 22:44:41 274

转载 机器学习之数学基础

目录Chapter 1 数学基础1.1 向量和矩阵转载自Github高赞机器学习项目Chapter 1 数学基础1.1 向量和矩阵标量(scalar)一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。向量(vector)​一个向量表示一组有序排列的数。通过次序中的索引,我们...

2019-07-08 21:19:30 154

原创 安装TensorFlow GPU版本指导

TensorFlow 官方指导安装网站下载和安装TensorFlow1.13.1 CUDA 9.0,cuDNN 7.3.1以上三个软件配套使用服务器环境R740 2U Xeon 16核32线程 128 内存 显卡Tesla P40(24G)至强银牌处理器(可开32线程)+GPU显卡(Tesla P40),尤其适用于计算量大可并行化的任务,深度学习利器。...

2019-05-30 14:20:22 107

原创 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-11-20 16:30:01 195

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除