![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习相关
NOX3335581
NULL
展开
-
【汇总】CUDA、cudnn版本查询,cudnn版本升级(Linux)
查看 CUDA 版本:cat /usr/local/cuda/version.txt查看 CUDNN 版本:cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2#define CUDNN_MAJOR 7#define CUDNN_MINOR 3#define CUDNN_PATCHLEVEL 1输出前三...原创 2019-11-13 17:02:57 · 2137 阅读 · 0 评论 -
【转载】David Silver公开课9——探索与利用
本文是David Silver强化学习公开课第九课的总结笔记。这一课主要讲了因为存在Exploration和Exploitation矛盾的问题,从而需要考虑如何达到exploration的目的,提出了三种思路。【转载自】chenrudan.github.io本文是David Silver强化学习公开课第九课的总结笔记。这一课主要讲了因为存在Exploration和Exploitation矛...转载 2018-09-06 10:58:13 · 361 阅读 · 0 评论 -
【转载】David Silver公开课8——Integrating Learning and Planning
Integrating Learning and Planning(对Environment建立模型)本文是David Silver强化学习公开课第八课的总结笔记。这一课主要讲了如何拟合environment模型,通过有监督的方式来更新model,以及如何基于学习的model来找policy/value function,主要谈到了Monte-Carlo Tree Search方法,并且将拟合...转载 2018-09-06 10:51:22 · 229 阅读 · 0 评论 -
【转载】David Silver公开课7——Policy Gradient
本文是David Silver强化学习公开课第七课的总结笔记。这一课主要讲了将policy看成某个参数hetaheta的函数,即将policy形式变成状态和动作的概率分布函数,在policy函数可微的情况下能够通过对参数求导来优化policy。【转载请注明出处】chenrudan.github.io本文是David Silver强化学习公开课第七课的总结笔记。这一课主要讲了将policy看...转载 2018-09-06 10:50:10 · 257 阅读 · 0 评论 -
【转载】David Silver公开课6——求解近似值函数
本文是David Silver强化学习公开课第六课的总结笔记。这一课主要讲了由于现实问题中状态数过多导致无法直接求解出值函数,从而通过梯度下降的方式来求解真实值函数的近似函数形式。【转载自】chenrudan.github.io本文是David Silver强化学习公开课第六课的总结笔记。这一课主要讲了由于现实问题中状态数过多导致无法直接求解出值函数,从而通过梯度下降的方式来求解真实值函数...转载 2018-09-06 10:49:27 · 363 阅读 · 0 评论 -
【转载】David Silver公开课5——Model-Free Control
Model-Free Control(解决未知Environment下的Control问题)本文是David Silver强化学习公开课第五课的总结笔记。这一课主要讲了解决在未知policy未知environment的情况下control问题的两种思路,即On-Policy和Off-Policy,在第四课的Monte-Carlo和Temporal Difference基础上进行改进。【转载...转载 2018-09-06 10:48:40 · 217 阅读 · 0 评论 -
【转载】David Silver公开课4——Model-Free Learning
Model-Free Learning(解决未知Environment下的Prediction问题)本文是David Silver强化学习公开课第四课的总结笔记。这一课主要讲了解决在未知environment的情况下强化学习的prediction问题的两种方法,分别是Monte-Carlo Reinforcement Learning和Temporal Difference。【转载自】ch...转载 2018-09-06 10:46:36 · 291 阅读 · 0 评论 -
【转载】David Silver公开课3——动态规划解决MDP的Planning问题
本文是David Silver强化学习公开课第三课的总结笔记。主要谈到了动态规划能够解决MDP的什么问题,能通过Policy Iteration和Value Iteration来解决,这两者指的是什么,出于什么样的考虑提出这两种思路,具体解决步骤是什么。【转载自】chenrudan.github.io本文是David Silver强化学习公开课第三课的总结笔记。主要谈到了动态规划能够解决M...转载 2018-09-06 10:45:22 · 428 阅读 · 0 评论 -
【转载】David Silver公开课2——马尔可夫决策过程MDP
本文是David Silver强化学习公开课第二课的总结笔记。主要介绍了马尔可夫过程(MP)、马尔可夫奖赏过程(MRP)、马尔可夫决策过程(MDP)是什么,以及它们涉及到的一些概念,结合了课程ppt给出的例子对概念有了一些直观的了解。【转载自】chenrudan.github.io本文是David Silver强化学习公开课第二课的总结笔记。主要介绍了马尔可夫过程(MP)、马尔可夫奖赏过程...转载 2018-09-06 10:44:26 · 1142 阅读 · 0 评论 -
【转载】David Silver公开课1——强化学习入门
本文是David Silver强化学习公开课第一课的总结笔记。第一课主要解释了强化学习在多领域的体现,主要解决什么问题,与监督学习算法的区别,完整的算法流程由哪几部分组成,其中的agent又包含什么内容,以及解释了强化学习涉及到的一些概念。【转载自】chenrudan.github.io本文是David Silver强化学习公开课第一课的总结笔记。第一课主要解释了强化学习在多领域的体现,主...转载 2018-09-06 10:42:52 · 903 阅读 · 0 评论 -
【转载】Bow模型
Bag-of-words model (BoW model) 最早出现在NLP和IR领域. 该模型忽略掉文本的语法和语序, 用一组无序的单词(words)来表达一段文字或一个文档. 近年来, BoW模型被广泛应用于计算机视觉中. 与应用于文本的BoW类比, 图像的特征(feature)被当作单词(Word).引子: 应用于文本的BoW modelWikipedia[1]上给出了如下例子:...转载 2017-05-08 15:54:26 · 501 阅读 · 0 评论