2018年01月_Snail_Walker

10月 09月 08月 02月 01月

原创 CNN Architecture：从LeNet-5到CapsulesNet

LeNet-5AlexNetVGGNetGoogLeNetResNetDenseNetCapsulesNetSummary转载请注明出处： http://blog.csdn.net/c602273091/article/details/79119303对于LeNet-5和AlexNet的论文我都有认真看过，对于另外的结构略看了paper。这篇博客主要还是以总结为主，对各

2018-01-22 03:48:21 2461 2

原创 RAM： Recurrent Models of Visual Attention 学习笔记

论文解析Torch代码Glimpse Networkhidden layerlocatorattention networkAgentparameter settingTF实践论文解析看了论文【1】和博客【9】【10】，我对RAM进行总结。要看懂这篇论文，需要强化学习中的policy-based learning和RNN的相关知识。如果对policy gra

2018-01-14 21:32:00 8811 10

原创深度强化学习之Policy Gradient & Actor-Critic Model & A3C

policy gradientactor-criticA3Cpolicy gradient在之前的DQN是进行value function的approximation，是value-vased RL。这次要讲的是policy-based RL。对于RL的policy直接进行参数表示：比如可以输入state（一幅图片，一个feature vector），然后由带有参数的某种算法（比如linear

2018-01-12 02:45:01 7283

原创 DRL之DQN Deep Q Network 学习总结

本次总结从最底下的Ref Links的material中得来，如果对于某些细节不清楚可以看看链接中的内容。我在看10-703的视频的时候，我觉得Russ讲课还是很不错的，很多东西讲得言简意赅，短短几句就把DQN的核心讲得清楚。RL中核心的三个东西：policy，model和value function。policy就是根据当前的state进行对应的action，当然可以是determinist

2018-01-11 09:07:18 3389

原创 Optimization之GD，Newton Method

gradient descentNewtons MethodMomentumAdagradRMSPropAdam转载请注明出处： http://blog.csdn.net/c602273091/article/details/79111771机器学习或者是深度学习中涉及了不少优化理论，那么问题来了，在机器学习中，它优化的目标是什么？它是如何进行优化的？为什么进行这种优化？这

2018-01-21 12:36:46 1156

原创 Reinforcement Learning SARSA算法实现以及grid world模拟

grid worldSARSA算法实现grid worldOpenAI Gym的Environment大部分是连续空间而不是离散空间的的Environment类，使用gridworld.py就可以模拟Environment的类【1】，【2】。使用这个类可以进行自定义格子的大小，水平和垂直格子数目。每个格子的奖励，初始状态。gridworld.py的初始化函数：de

2018-01-09 04:33:02 5125

原创 Reinforcement Learning policy evaluation实现以及OpenAI Gym介绍

RL Policy Evaluation Python实现OpenAI GymObservationSpaces总结RL Policy Evaluation Python实现根据UCL课程Lecture 3的4x4 grid求policy evaluation的方法，可以写成如下实现：states = [i for i in range(16)]value

2018-01-08 03:05:15 1524

原创 Leetcode之Graph and Search

graphReconstruct ItineraryCut Off Trees for Golf EventNumber of IslandsFriend CirclesWord LadderRedundant ConnectionEmployee ImportanceCourse ScheduleCourse Schedule IINetwork Delay Time

2018-01-08 01:50:31 471

原创 Leetcode之Greedy和Heap

HeapTop K Frequent WordsFind Median from Data StreamGreedyCreate Maximum NumberCut Off Trees for Golf EventTask SchedulerLongest PalindromeValid Triangle NumberAssign CookiesMaximum Pr

2018-01-06 05:49:14 373

原创 Torch中的RNN底层代码实现

理论篇代码篇Torch中的RNN【1】这个package包括了RNN，RL，通过这个package可以很容易构建RNN，RL的模型。安装：luarocks install torchluarocks install nnluarocks install torchxluarocks install dataload如果有CUDA：luarocks instal

2018-01-04 21:29:51 1957

原创 Torch中的Reinforcement Learning的底层实现

原理篇实现篇nnReinforceCategoricalnnReinforce强化学习已经成为大家关注的点，至少据我了解世界顶级名校CV的实验室都在做这方面的工作。最近也在做相关的Research，正好遇到了在Torch中的RL实现，发现没有什么可以参考的中文资料，只能试着来解释一下Torch中的RL实现。原理篇在Torch中的RL【2】实现参考的是论文【1】

2018-01-04 13:59:18 1258

原创 Reinforcement learning: integrating learning and planning, exploitation and exploration

介绍基于模型的RL整体框架基于仿真的搜索Exploration and Exploitation介绍越看到后面，我越发觉得RL更像是一种思想，Policy，State都需要自己进行定义，计算value function的过程也有公式，但是不如深度学习那么直接。之前的章节是说到如何从经验中得到policy和value function，这一节是如何从经验中获取模型。然后使用模型加经验来更新po

2018-01-02 10:48:52 408

Anyone Who Can Drive Safely While Kissing Is Simply Not Giving the Kiss the Attention It Deserves[1]. ——Albert Einstein当你在吻一个女孩的时候还能安全驾驶，说明你吻得不专心。据说这句话有可能是爱因斯坦说的[1]。其实我觉得这句话更说明你是一个老司机。在这本书里面介绍了人的注意力曲线U

2018-01-02 09:16:10 1287

原创 Torch在使用中常见的问题hdf5安装，nn增加类

CmdLinehdf5dpnnCmdLine()这个函数是在Torch中用于调参的一个函数，方便参数解析。并能保存成log，也可以load。只会保存optition里面的参数[1], [5]。cmd = torch.CmdLine()cmd:text()cmd:text()cmd:text('Training a simple network')cmd:text()cmd:text(

2018-01-01 11:33:02 2082 1