- 博客(18)
- 资源 (31)
- 收藏
- 关注
原创 Look-ahead before you leap: end-to-end active recognition by forecasting the effect of motion 讲解
IntroductionDetails and Questionsettingssystem architecturelook-ahead module我看了一下,基本上没有什么资料对这篇文章【1】进行描述【2】,那我就试着讲一讲这个东西,尽量试着把各个模块搞清楚。这玩意涉及CNN,RNN,RL这些东西,确实需要不少积淀才能搞清楚。转载请注明出处: http://blog.csdn.net/c
2017-12-28 08:23:25 723
原创 Cognitive Mapping and Planning for Visual Navigation 笔记
框架简介细节MappingPlanning实验框架简介该论文【1】【4】【5】提出了CMP的框架来同时进行建图和路径规划,并且建图不是传统意义上的3D重建,使用SLAM建图这种。这里面建的图是confidence map,并且通过map的不断叠加,可以构造出局部confidence map和belief对接下来的路径规划进行指导。路径规划部分使用DAGGER的强化学习策略(imitation
2017-12-17 00:16:24 2064 4
原创 Target-Driven Visual Navigation In Indoor Scenes Using DRL 讲解
简介细节问题learning setup简介机器人要对目标物体进行操作的时候,比如机器人从冰箱里拿出可乐。那么在传统方法中,一般是需要进行环境感知,机器人知道周围环境以及它目前所处的位置,位姿,以及目标的位置,接着进行路径规划,然后是决策控制。当然,中间还有landmark建模等等,可以看出为了解决这一系列的问题,需要进行较多的步骤。Feifei Li她们组就弄了一个end-to-end的方法,
2017-12-16 06:20:52 1704 5
原创 Lua快速入门与Torch教程
Lua变量和控制流函数表示哈希表像类一样的table和继承模块化TorchTensorLua最猛的版本还是在【2】里面,15 Min搞定Lua,因为Lua是一种脚本语言,用标准C语言编写并以源代码形式开放, 其设计目的是为了嵌入应用程序中,从而为应用程序提供灵活的扩展和定制功能。所以会Perl,Python,Shell的话应该很快上手。变量和控制流注释: 单行: – 多行:--[[-
2017-12-31 10:10:41 9926
原创 RNN, LSTM详解以及浅尝试
RNNLSTMExampleRNN也就是循环神经网络,这个东西有着非常多的用途,尤其是在对于时间序列方面,可变长序列到序列或者说是在上下文模型中有着非常广泛的应用。现在论文中说到RNN,基本上说的就是LSTM,但是最近又有了GRU,用了比LSTM更少的gate,更少的参数,可以达到类似的效果。这篇博客主要是介绍RNN,LSTM的原理,以及举了一个程序的例子来说明如何用TF实现LSTM【1】。RN
2017-12-31 00:09:23 7881 1
原创 Reinforcement Learning:Policy Gradient
IntroductionFinite Difference Policy GradientMonte-Carlo Policy Gradientlikelihood ratiosActor-Critic Policy GradientIntroduction上一节说的是value function approximation,使用的是函数拟合。这一节说的就是采用概率的方法来表示:这一节主要是讲
2017-12-30 10:43:39 1807
原创 TensorFlow之进阶篇
linear regressiongraph assemble训练模型examplelogistic regressionloss functionHuber Loss在这一篇中,将会介绍如何使用TensorFlow进行linear regression以及logistic regression,以及loss function的定义。之后的篇章将会进入如何使用TF构建RNN,LSTM网络。上
2017-12-28 06:45:25 1243 1
原创 TensorFlow之入门篇
introductionBasic Operation可视化graph常量operation数据类型变量loading lazy实例线性回归神经网络识别数字introductionTensorFlow是由Google Brain Team弄的一个深度学习框架,使用的是data flow graph的模型进行计算。相比于Torch,Theano,Caffe,CNTK,Disbelief
2017-12-28 02:30:46 1449
原创 深度学习框架之Keras入门教程
introduction and installexampleintroduction and installKeras是一种high level的神经网路的Python API,它可以在TensorFlow, CNTK, or Theano上运行,兼容Python Python 2.7~3.6,所以非常方便。可以在CPU和GPU上运行,适用于快速验证想法。**模块化:**neural layer
2017-12-27 22:20:39 21168 2
原创 Reinforcement Learning: value function approximation
introductionincremental methods增量法state value function with prediction approximationaction value function with control approximationbatch methods批处理introduction上一节讲到使用采样的方法进行,状态和action space都比较小的情况,
2017-12-27 03:49:10 715
原创 Leetcode 刷题之链表和位操作
reverse Linked Listbit operationreverse Linked List206. Reverse Linked List/** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * L
2017-12-25 01:20:27 254
原创 Leetcode 刷题之Hash and Tree
滑动窗口哈希表LeetCode 748 Shortest Completing WordSentence SimilarityLongest Word in Dictionarytrees滑动窗口349. Intersection of Two Arraysclass Solution {public: vectorint> interse
2017-12-21 22:26:13 332
原创 Leetcode 刷题之数组类
入门级283. Move Zeroesclass Solution {public: void swap(vector<int>& nums, int a, int b) { int tmp = nums[a]; nums[a] = nums[b]; nums[b] = tmp; } void moveZeroes(vector
2017-12-21 06:09:21 540
原创 《自卑与超越》读书笔记
弗洛伊德更加看重因果关系,把这种关系作为心理学的基本定律,认为儿童时期的心理发展会对其一生产生决定性影响。阿德勒却觉得影响人做决定不仅仅是过去的经验,更重要的是对未来的期望。这种目标虽然是虚假的,但是人们会按照这种期待进行种种行为。阿德勒称之为“自我的理想”,可以从中获得优越感,并维护自己的尊严。既然过去已经无法改变,那么我更加同意阿德勒的想法,用理想去重塑自己的意识壁,为理想而奋斗。
2017-12-21 01:45:49 2669
原创 Reinforcement Learning: Model-free control
On-policy Monte-Carlo ControlOn-Policy Temporal-Difference LearningOff-Policy Learning使用Monte-Carlo对off-policy进行更新使用TD对off-policy进行更新使用Q-learning进行off-policy的更新上一节讲到的是对未知MDP的value function进行估计,这一节是
2017-12-20 20:45:35 415
原创 Reinforcement Learning:Model-Free Prediction 笔记
Monte-Carlo learningFirst-Visit MC Policy EvaluationEvery-Visit MC Policy EvaluationTemporal-Difference LearningTDlambdaMDP: Monte-Carlo learning蒙特卡洛学习。是通过样本来判断整体的情况,没有MDP中的P和R,直接从episodes(需要有termin
2017-12-20 07:44:12 614
原创 Reinforcement Learning: Planning by DP
Policy EvaluationIterative Policy EvaluationPolicy IterationValue IterationAsynchronous DPIn-place DPPrioritised SweepingReal-time DPFull-Width BackupsSample BackupsSample Backups动规是一般是把问题分解成
2017-12-20 03:20:04 502
原创 Reinforcement Learning Note: Concept and MDP
Reinforcement Learning ConceptrewardSequential decision makingRL Agentcategorizing RL agentMDPMarkov ProcessMarkov Reward ProcessMarkov Decision ProcessExtension of MDPPOMDPs转载请注明出处: http://b
2017-12-18 04:24:37 690
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人