2017年12月_Snail_Walker

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Look-ahead before you leap: end-to-end active recognition by forecasting the effect of motion 讲解

IntroductionDetails and Questionsettingssystem architecturelook-ahead module我看了一下，基本上没有什么资料对这篇文章【1】进行描述【2】，那我就试着讲一讲这个东西，尽量试着把各个模块搞清楚。这玩意涉及CNN，RNN，RL这些东西，确实需要不少积淀才能搞清楚。转载请注明出处： http://blog.csdn.net/c

2017-12-28 08:23:25 723

原创 Cognitive Mapping and Planning for Visual Navigation 笔记

框架简介细节MappingPlanning实验框架简介该论文【1】【4】【5】提出了CMP的框架来同时进行建图和路径规划，并且建图不是传统意义上的3D重建，使用SLAM建图这种。这里面建的图是confidence map，并且通过map的不断叠加，可以构造出局部confidence map和belief对接下来的路径规划进行指导。路径规划部分使用DAGGER的强化学习策略（imitation

2017-12-17 00:16:24 2064 4

原创 Target-Driven Visual Navigation In Indoor Scenes Using DRL 讲解

简介细节问题learning setup简介机器人要对目标物体进行操作的时候，比如机器人从冰箱里拿出可乐。那么在传统方法中，一般是需要进行环境感知，机器人知道周围环境以及它目前所处的位置，位姿，以及目标的位置，接着进行路径规划，然后是决策控制。当然，中间还有landmark建模等等，可以看出为了解决这一系列的问题，需要进行较多的步骤。Feifei Li她们组就弄了一个end-to-end的方法，

2017-12-16 06:20:52 1704 5

原创 Lua快速入门与Torch教程

Lua变量和控制流函数表示哈希表像类一样的table和继承模块化TorchTensorLua最猛的版本还是在【2】里面，15 Min搞定Lua，因为Lua是一种脚本语言，用标准C语言编写并以源代码形式开放，其设计目的是为了嵌入应用程序中，从而为应用程序提供灵活的扩展和定制功能。所以会Perl，Python，Shell的话应该很快上手。变量和控制流注释：单行： – 多行：--[[-

2017-12-31 10:10:41 9926

原创 RNN, LSTM详解以及浅尝试

RNNLSTMExampleRNN也就是循环神经网络，这个东西有着非常多的用途，尤其是在对于时间序列方面，可变长序列到序列或者说是在上下文模型中有着非常广泛的应用。现在论文中说到RNN，基本上说的就是LSTM，但是最近又有了GRU，用了比LSTM更少的gate，更少的参数，可以达到类似的效果。这篇博客主要是介绍RNN，LSTM的原理，以及举了一个程序的例子来说明如何用TF实现LSTM【1】。RN

2017-12-31 00:09:23 7881 1

原创 Reinforcement Learning：Policy Gradient

IntroductionFinite Difference Policy GradientMonte-Carlo Policy Gradientlikelihood ratiosActor-Critic Policy GradientIntroduction上一节说的是value function approximation，使用的是函数拟合。这一节说的就是采用概率的方法来表示：这一节主要是讲

2017-12-30 10:43:39 1807

原创 TensorFlow之进阶篇

linear regressiongraph assemble训练模型examplelogistic regressionloss functionHuber Loss在这一篇中，将会介绍如何使用TensorFlow进行linear regression以及logistic regression，以及loss function的定义。之后的篇章将会进入如何使用TF构建RNN，LSTM网络。上

2017-12-28 06:45:25 1243 1

原创 TensorFlow之入门篇

introductionBasic Operation可视化graph常量operation数据类型变量loading lazy实例线性回归神经网络识别数字introductionTensorFlow是由Google Brain Team弄的一个深度学习框架，使用的是data flow graph的模型进行计算。相比于Torch，Theano，Caffe，CNTK，Disbelief

2017-12-28 02:30:46 1449

introduction and installexampleintroduction and installKeras是一种high level的神经网路的Python API，它可以在TensorFlow, CNTK, or Theano上运行，兼容Python Python 2.7~3.6，所以非常方便。可以在CPU和GPU上运行，适用于快速验证想法。**模块化：**neural layer

2017-12-27 22:20:39 21168 2

原创 Reinforcement Learning: value function approximation

introductionincremental methods增量法state value function with prediction approximationaction value function with control approximationbatch methods批处理introduction上一节讲到使用采样的方法进行，状态和action space都比较小的情况，

2017-12-27 03:49:10 715

原创 Leetcode 刷题之链表和位操作

reverse Linked Listbit operationreverse Linked List206. Reverse Linked List/** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * L

2017-12-25 01:20:27 254

原创 Leetcode 刷题之Hash and Tree

滑动窗口哈希表LeetCode 748 Shortest Completing WordSentence SimilarityLongest Word in Dictionarytrees滑动窗口349. Intersection of Two Arraysclass Solution {public: vectorint> interse

2017-12-21 22:26:13 332

原创 Leetcode 刷题之数组类

入门级283. Move Zeroesclass Solution {public: void swap(vector<int>& nums, int a, int b) { int tmp = nums[a]; nums[a] = nums[b]; nums[b] = tmp; } void moveZeroes(vector

2017-12-21 06:09:21 540

原创《自卑与超越》读书笔记

弗洛伊德更加看重因果关系，把这种关系作为心理学的基本定律，认为儿童时期的心理发展会对其一生产生决定性影响。阿德勒却觉得影响人做决定不仅仅是过去的经验，更重要的是对未来的期望。这种目标虽然是虚假的，但是人们会按照这种期待进行种种行为。阿德勒称之为“自我的理想”，可以从中获得优越感，并维护自己的尊严。既然过去已经无法改变，那么我更加同意阿德勒的想法，用理想去重塑自己的意识壁，为理想而奋斗。

2017-12-21 01:45:49 2669

原创 Reinforcement Learning: Model-free control

On-policy Monte-Carlo ControlOn-Policy Temporal-Difference LearningOff-Policy Learning使用Monte-Carlo对off-policy进行更新使用TD对off-policy进行更新使用Q-learning进行off-policy的更新上一节讲到的是对未知MDP的value function进行估计，这一节是

2017-12-20 20:45:35 415

原创 Reinforcement Learning：Model-Free Prediction 笔记

Monte-Carlo learningFirst-Visit MC Policy EvaluationEvery-Visit MC Policy EvaluationTemporal-Difference LearningTDlambdaMDP: Monte-Carlo learning蒙特卡洛学习。是通过样本来判断整体的情况，没有MDP中的P和R，直接从episodes（需要有termin

2017-12-20 07:44:12 614

原创 Reinforcement Learning: Planning by DP

Policy EvaluationIterative Policy EvaluationPolicy IterationValue IterationAsynchronous DPIn-place DPPrioritised SweepingReal-time DPFull-Width BackupsSample BackupsSample Backups动规是一般是把问题分解成

2017-12-20 03:20:04 502

原创 Reinforcement Learning Note: Concept and MDP

Reinforcement Learning ConceptrewardSequential decision makingRL Agentcategorizing RL agentMDPMarkov ProcessMarkov Reward ProcessMarkov Decision ProcessExtension of MDPPOMDPs转载请注明出处： http://b

2017-12-18 04:24:37 690