机器学习
文章平均质量分 91
番茄大圣
这个作者很懒,什么都没留下…
展开
-
机器学习之Grid World的SARSA算法解析
SARSASARSA(State-Action-Reward-State-Action)是一个学习马尔可夫决策过程策略的算法,通常使用在机器学习领域的增强学习上。一篇技术文章介绍了这个算法并且在注脚处提到了SARSA这个别名。 State-Action-Reward-State-Action这个名称清楚地反应了其学习更新函数依赖的5个值,分别是当前状态S1,当前状态选中的动作A1,获得的奖励Rew原创 2017-08-16 22:01:12 · 2981 阅读 · 0 评论 -
机器学习之Grid World的Q-Learning算法解析
来自Github开源项目的基于Grid World游戏的Q-Learning算法 Github地址:https://github.com/rlcode/reinforcement-learning/tree/master/1-grid-world/5-q-learningQ-LearningQ-Learning是一项无模型的增强学习技术,它可以在MDP问题中寻找一个最优的动作选择策略。它通过一个动原创 2017-08-17 21:39:48 · 6469 阅读 · 0 评论 -
机器学习之Policy Iteration算法解析
本文尝试解析Python实现的Policy Iteration算法,代码来自Github某大神的库– Github地址。其实现代码解决了下图中方块行走的问题,即控制红色方块,走到蓝色球的位置上算通关,碰到绿色三角要减分。 算法描述Policy Iteration直译成中文是策略迭代,言下之意就是通过不停的更新策略使策略达到最优解。Policy Iteration算法的主要步骤分为2步,先是执行P原创 2017-08-06 09:35:45 · 2361 阅读 · 0 评论 -
机器学习之Grid World的Monte Carlo算法解析
同样是来自于Github开源项目的代码,这次尝试分析其Grid World的Monte Carlo算法。 Github地址:https://github.com/rlcode/reinforcement-learning/tree/master/1-grid-world/3-monte-carloGrid WorldGrid World是该开源项目用于检验算法的一个测试环境,是由n*n个原创 2017-08-14 23:42:29 · 2324 阅读 · 0 评论 -
机器学习之Grid World的Deep SARSA算法解析
Github上某开源项目的Deep SARSA算法实现代码地址: https://github.com/rlcode/reinforcement-learning/tree/a497d719e3ecdd254e6620cf4f4b9afb0524b099/1-grid-world/6-deep-sarsaDeep SARSADeep SARSA算法是基于SARSA算法的,不同之处在于SARSA算法原创 2017-08-22 21:05:11 · 2711 阅读 · 0 评论 -
cs224n作业1学习笔记
1.Softmaxsoftmax函数通常用在机器学习的分类问题中,作为输出层的激活函数。它的输入是一个实数向量,输出向量的长度与输入向量相同(也与分类的数目相同),但所有元素的取值范围为(0,1),且所有元素的和为1。输出向量的各个元素值表示的是属于某个分类的可能性。softmax函数的数学表达式为:softmax(x)i=exi∑jexjsoftmax(\boldsymbol x)_i=...原创 2018-12-13 21:11:06 · 1470 阅读 · 2 评论 -
cs224n作业二学习笔记
1.Tensorflow Softmax这个作业题可以算是tensorflow的入门练习,涉及tensorflow的一些基本知识。虽然内容比较基础,但是基本包含了tensorflow的理念。如果理解得好,就能很快用上tensorflow了。编写本文时采用开发环境py3.6.7及tensorflow1.12.0。且导入tensorflow别名为tf。import tensorflow as t...原创 2019-07-15 20:14:18 · 603 阅读 · 0 评论