- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 机器学习之Grid World的Deep SARSA算法解析
Github上某开源项目的Deep SARSA算法实现代码地址: https://github.com/rlcode/reinforcement-learning/tree/a497d719e3ecdd254e6620cf4f4b9afb0524b099/1-grid-world/6-deep-sarsaDeep SARSADeep SARSA算法是基于SARSA算法的,不同之处在于SARSA算法
2017-08-22 21:05:11 2688
原创 机器学习之Grid World的Q-Learning算法解析
来自Github开源项目的基于Grid World游戏的Q-Learning算法 Github地址:https://github.com/rlcode/reinforcement-learning/tree/master/1-grid-world/5-q-learningQ-LearningQ-Learning是一项无模型的增强学习技术,它可以在MDP问题中寻找一个最优的动作选择策略。它通过一个动
2017-08-17 21:39:48 6444
原创 机器学习之Grid World的SARSA算法解析
SARSASARSA(State-Action-Reward-State-Action)是一个学习马尔可夫决策过程策略的算法,通常使用在机器学习领域的增强学习上。一篇技术文章介绍了这个算法并且在注脚处提到了SARSA这个别名。 State-Action-Reward-State-Action这个名称清楚地反应了其学习更新函数依赖的5个值,分别是当前状态S1,当前状态选中的动作A1,获得的奖励Rew
2017-08-16 22:01:12 2966
原创 AS使用MultiDex找不到classes.dex文件
Error:Execution failed for task ‘:app:transformClassesWithDexForDebug’. > com.android.build.api.transform.TransformException: com.android.ide.common.process.ProcessException: java.util.concurrent.Ex
2017-08-16 09:26:43 2607
原创 Win7 Ubuntu双系统安装踩坑记录
记坑爹的CSDN一笔!本来已经写过一次这篇文章了,但是新建下一篇文章发表之后变成编辑上一篇文章,搞得我现在又写一次,浪费了我好几个小时,巨坑,大家以后要注意了!本人是笔记本,已有Win7系统,想装Win7+Ubuntu双系统的,为此踩了不少坑,现在记录下来,分享一下,也以备自己查阅。问题一:下载的系统是损坏的本人是采用UltraIso将官网下载的Ubuntu镜像文件烧录到U盘,将U盘作为启动盘安装U
2017-08-15 22:24:22 764
原创 机器学习之Grid World的Monte Carlo算法解析
同样是来自于Github开源项目的代码,这次尝试分析其Grid World的Monte Carlo算法。 Github地址:https://github.com/rlcode/reinforcement-learning/tree/master/1-grid-world/3-monte-carloGrid WorldGrid World是该开源项目用于检验算法的一个测试环境,是由n*n个
2017-08-14 23:42:29 2300
原创 机器学习之Policy Iteration算法解析
本文尝试解析Python实现的Policy Iteration算法,代码来自Github某大神的库– Github地址。其实现代码解决了下图中方块行走的问题,即控制红色方块,走到蓝色球的位置上算通关,碰到绿色三角要减分。 算法描述Policy Iteration直译成中文是策略迭代,言下之意就是通过不停的更新策略使策略达到最优解。Policy Iteration算法的主要步骤分为2步,先是执行P
2017-08-06 09:35:45 2335
XposedBridgeAPI-82 XposedBridgeAPI-89 XposedBridgeAPI-85
2022-07-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人