ztchao1996-CSDN博客

原创 cs294-deepRL with Qfunction

回顾Qlearning问题在哪？样本强相关、不是梯度下降相关性采样用replay buffer解决：多次采样采样放在一起但是，目标值没有梯度Q-learning 用目标网络经典DQN算法：更加通用的观点...

2019-07-23 22:10:40 93

原创 cs294-value function methods

在actor-critic中，忽略policy gradient策略迭代过程：策略迭代用动态规划简化动态规划：采用NN估计值函数拟合Q迭代为什么算法是off-policy在线Q-learning算法总结...

2019-07-23 21:28:50 93

原创 cs294-RL introduction

强化学习的种类model-based RL值函数policy gradientactor-critic： value function plus policy gradients为什么要有那么多的RL算法？协调因素：采样高效、稳定不同假设：随机或确定、连续or离散、episode or infinite horizon 难度不同：策略展示简单还是模型展示...

2019-07-23 20:35:32 204

原创强化学习之值函数估计

目录值函数估计介绍增量方法值函数估计介绍大规模的MDP，存在两个缺点：状态和动作过多。计算太慢以至于不能学习到每个状态的值。三种估计的方式。函数逼近的方法增量方法表格查找法是值函数估计的特殊情况：增量预测算法基于MC的值函数估计广义策略迭代方法动作值函数估计控制算法的收敛...

2019-07-16 22:16:16 818

原创强化学习之model free control

model free control 能解决什么问题？》策略迭代的基本操作贪心策略提高值函数：采用Monte Carlo 策略迭代，Greedy in the limit with infinite explorationMC 和 TD 控制的区别Sarsa算法On policy control with sarsa...

2019-07-10 15:07:29 180

原创强化学习之动态规划

Dynamic Programming什么是DP，MDP为什么是DP？DP能解决什么问题？迭代策略评估：例子：如何提高策略？

2019-07-09 22:49:12 121

原创强化学习之MDP

MPMP的过程由state probability reward lambda决定案例如下所示：值函数V（s）MDP， S A P R lamdba决策变量定义值函数和状态值函数的定义：Bellman方程计算关于Q下的VBellman方程计算QBellman方程计算V寻找最优Q 和V找到...

2019-07-09 21:24:56 417

转载机器学习之机器学习基础

目录机器学习基础2.1 基本概念机器学习基础机器学习是人工智能的一个子集，目前已经发展出许多有用的方法，比如支持向量机SVM，回归Regression，决策树DT，随机森林randomForest，强化方法RL，集成学习ensemble，深度学习deeplearning等等，一定程度上可以帮助人们完成一些数据预测，自动化，自动决策，最优化等初步替代脑力的任务。本章我们主要介绍下机...

2019-07-08 22:44:41 274

转载机器学习之数学基础

目录Chapter 1 数学基础1.1 向量和矩阵转载自Github高赞机器学习项目Chapter 1 数学基础1.1 向量和矩阵标量（scalar）一个标量表示一个单独的数，它不同于线性代数中研究的其他大部分对象（通常是多个数的数组）。我们用斜体表示标量。标量通常被赋予小写的变量名称。向量（vector）一个向量表示一组有序排列的数。通过次序中的索引，我们...

2019-07-08 21:19:30 154

原创安装TensorFlow GPU版本指导

TensorFlow 官方指导安装网站下载和安装TensorFlow1.13.1 CUDA 9.0，cuDNN 7.3.1以上三个软件配套使用服务器环境R740 2U Xeon 16核32线程 128 内存显卡Tesla P40（24G）至强银牌处理器（可开32线程）+GPU显卡（Tesla P40），尤其适用于计算量大可并行化的任务，深度学习利器。...

2019-05-30 14:20:22 107

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-11-20 16:30:01 195

weixin_39871550的博客