- 博客(14)
- 资源 (31)
- 收藏
- 关注
原创 CNN Architecture:从LeNet-5到CapsulesNet
LeNet-5AlexNetVGGNetGoogLeNetResNetDenseNetCapsulesNetSummary转载请注明出处: http://blog.csdn.net/c602273091/article/details/79119303对于LeNet-5和AlexNet的论文我都有认真看过,对于另外的结构略看了paper。这篇博客主要还是以总结为主,对各
2018-01-22 03:48:21 2461 2
原创 RAM: Recurrent Models of Visual Attention 学习笔记
论文解析Torch代码Glimpse Networkhidden layerlocatorattention networkAgentparameter settingTF实践论文解析看了论文【1】和博客【9】【10】,我对RAM进行总结。要看懂这篇论文,需要强化学习中的policy-based learning和RNN的相关知识。如果对policy gra
2018-01-14 21:32:00 8811 10
原创 深度强化学习之Policy Gradient & Actor-Critic Model & A3C
policy gradientactor-criticA3Cpolicy gradient在之前的DQN是进行value function的approximation,是value-vased RL。这次要讲的是policy-based RL。对于RL的policy直接进行参数表示:比如可以输入state(一幅图片,一个feature vector),然后由带有参数的某种算法(比如linear
2018-01-12 02:45:01 7283
原创 DRL之DQN Deep Q Network 学习总结
本次总结从最底下的Ref Links的material中得来,如果对于某些细节不清楚可以看看链接中的内容。我在看10-703的视频的时候,我觉得Russ讲课还是很不错的,很多东西讲得言简意赅,短短几句就把DQN的核心讲得清楚。RL中核心的三个东西:policy,model和value function。policy就是根据当前的state进行对应的action,当然可以是determinist
2018-01-11 09:07:18 3389
原创 Optimization之GD,Newton Method
gradient descentNewtons MethodMomentumAdagradRMSPropAdam转载请注明出处: http://blog.csdn.net/c602273091/article/details/79111771机器学习或者是深度学习中涉及了不少优化理论,那么问题来了,在机器学习中,它优化的目标是什么?它是如何进行优化的?为什么进行这种优化?这
2018-01-21 12:36:46 1156
原创 Reinforcement Learning SARSA算法实现以及grid world模拟
grid worldSARSA算法实现grid worldOpenAI Gym的Environment大部分是连续空间而不是离散空间的的Environment类,使用gridworld.py就可以模拟Environment的类【1】,【2】。使用这个类可以进行自定义格子的大小,水平和垂直格子数目。每个格子的奖励,初始状态。gridworld.py的初始化函数:de
2018-01-09 04:33:02 5125
原创 Reinforcement Learning policy evaluation实现以及OpenAI Gym介绍
RL Policy Evaluation Python实现OpenAI GymObservationSpaces总结RL Policy Evaluation Python实现根据UCL课程Lecture 3的4x4 grid求policy evaluation的方法,可以写成如下实现:states = [i for i in range(16)]value
2018-01-08 03:05:15 1524
原创 Leetcode之Graph and Search
graphReconstruct ItineraryCut Off Trees for Golf EventNumber of IslandsFriend CirclesWord LadderRedundant ConnectionEmployee ImportanceCourse ScheduleCourse Schedule IINetwork Delay Time
2018-01-08 01:50:31 471
原创 Leetcode之Greedy和Heap
HeapTop K Frequent WordsFind Median from Data StreamGreedyCreate Maximum NumberCut Off Trees for Golf EventTask SchedulerLongest PalindromeValid Triangle NumberAssign CookiesMaximum Pr
2018-01-06 05:49:14 373
原创 Torch中的RNN底层代码实现
理论篇代码篇Torch中的RNN【1】这个package包括了RNN,RL,通过这个package可以很容易构建RNN,RL的模型。安装:luarocks install torchluarocks install nnluarocks install torchxluarocks install dataload如果有CUDA:luarocks instal
2018-01-04 21:29:51 1957
原创 Torch中的Reinforcement Learning的底层实现
原理篇实现篇nnReinforceCategoricalnnReinforce强化学习已经成为大家关注的点,至少据我了解世界顶级名校CV的实验室都在做这方面的工作。最近也在做相关的Research,正好遇到了在Torch中的RL实现,发现没有什么可以参考的中文资料,只能试着来解释一下Torch中的RL实现。原理篇在Torch中的RL【2】实现参考的是论文【1】
2018-01-04 13:59:18 1258
原创 Reinforcement learning: integrating learning and planning, exploitation and exploration
介绍基于模型的RL整体框架基于仿真的搜索Exploration and Exploitation介绍越看到后面,我越发觉得RL更像是一种思想,Policy,State都需要自己进行定义,计算value function的过程也有公式,但是不如深度学习那么直接。之前的章节是说到如何从经验中得到policy和value function,这一节是如何从经验中获取模型。然后使用模型加经验来更新po
2018-01-02 10:48:52 408
原创 注意力曲线:打败分心与焦虑
Anyone Who Can Drive Safely While Kissing Is Simply Not Giving the Kiss the Attention It Deserves[1]. ——Albert Einstein当你在吻一个女孩的时候还能安全驾驶,说明你吻得不专心。据说这句话有可能是爱因斯坦说的[1]。其实我觉得这句话更说明你是一个老司机。在这本书里面介绍了人的注意力曲线U
2018-01-02 09:16:10 1287
原创 Torch在使用中常见的问题hdf5安装,nn增加类
CmdLinehdf5dpnnCmdLine()这个函数是在Torch中用于调参的一个函数,方便参数解析。并能保存成log,也可以load。只会保存optition里面的参数[1], [5]。cmd = torch.CmdLine()cmd:text()cmd:text()cmd:text('Training a simple network')cmd:text()cmd:text(
2018-01-01 11:33:02 2082 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人