- 博客(9)
- 资源 (13)
- 收藏
- 关注
原创 2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms
今天接着上一讲,继续讲value functions相关的内容 先回顾Q-learning。上一讲讲到QϕQϕQ_{\phi}除了tabular的情形之外,用任何function approximator(比如NN),那么算法的收敛性就无法得到保证。但本讲主要讲,怎么在实际中,让算法以较大的概率收敛。两个问题,一个是correlation,另一个是not gradient desce...
2018-03-20 09:43:15 539
原创 2017 Fall CS294 Lecture 7: Value Function Methods
回忆Aπ(st,at)Aπ(st,at)A^\pi(s_t,a_t)的含义,如果使用下述的π′(at|st)π′(at|st)\pi'(a_t|s_t)来取代at∼π(at|st)at∼π(at|st)a_t\sim \pi(a_t|s_t),那么由于π′π′\pi'是取了max的,那么至少不会比ππ\pi要差。那么算法的流程就如右小角的那个图一样,不断的用π′π′\pi'来更新ππ\pi,然后用...
2018-03-20 09:42:46 352
原创 2017 Fall CS294 Lecture 6: Actor-critic introduction
很奇怪,没有看到Lecture 5的视频,不过Lecture 5貌似是回顾NN,也没关系,所以就跳过直接从Lecture 6开始了!我们重现一下actor-critic的诞生过程:上图中,其实PPT中是有动画的,但是上面无法显示出来,实际的推演过程是: Qπ(st,at)=r(st,at)+Est+1∼p(st+1|st,at)[Vπ(st+1)]Qπ(st,at)=r(st,at)...
2018-03-20 09:40:59 414
原创 2017 Fall CS294 Lecture 4: Policy gradients introduction
看完CS294 Lecture 4,感觉收获好多,满满的都是干货啊。太多精华和亮点了,以至于我些笔记都很有压力,我觉得最好的方法就是对照Lecture 4的PPT一页一页地看并理解。我先前有一篇博客My Roadmap in Reinforcement Learning ,Karpathy从直觉的角度阐述了Poliy Gradient的思想,如果从严格的数学形式来理解证明,可以看CS294的l...
2018-03-20 09:40:27 535
原创 码隆科技WebVision2017冠军模型思想
WebVision2017是一个半监督的任务,本文全部提取自码隆科技做的一个讲座ImageNet和WebVision数据集的对比: WebVision数据集: 第一个思想是:Data, model architecture, loss, training strategy都同等重要。 数据不均衡的问题,多的有10000+张,少的只有几百张: 主要的挑战在于noi...
2018-03-19 00:53:41 1397 1
原创 Semantic Segmentation: A thorough Review
语义分割可以划分到目标检测领域,不同的是,一般意义上目标检测只需要输出被检测物体的bounding box,而语义分割则需要输出一个mask,所以要求更高了。从技术上说,语义分割归根结底就是对context information的建模。研究意义语义分割(Semantic Segmentation)的目标是给定一张图片,对于图片中的每一个像素做分类。例如下中给出的原始输入图片,语义...
2018-03-15 14:25:07 1156 1
原创 图像数据的预处理,从'P','RGBA','RGB'多种mode的图像说起
‘P’,’RGBA’,’RGB’这是PIL Image读图可能出现的三种mode,每种mode的图片数据都有不同的组织形式,当训练/测试数据都是一堆图片时,尤其是那种没人帮你清洗的数据时,自己就要留神了,否则模型还没跑起来就给提前自己挖了个坑。首先,先容许我吐槽一下OpenCV的两个抽风,我用的python接口的(估计没怎么维护吧,所以有bug),用cv2.imread读图:对’RGBA’...
2018-03-15 09:23:38 10343 5
原创 怎么让git clone到本地的库更新到github上的版本
最保险的做法如下:# 第一句话,切换到master branchgit checkout master# 第二句话,新建一个branch来备份本地现有的“旧库”,因为一旦git fetch之后本地的数据都会被覆盖git branch new-branch-to-save-current-commits# 第三句话和第四句话就是更新到最新的库(与github上的远程库同步)git fe...
2018-03-13 22:08:57 5697 1
原创 SSD代码中MatchBBox函数的理解
卧了个槽。。这个函数竟然看了我这么久。先把整个函数体摘抄如下:void MatchBBox(const vector<NormalizedBBox>& gt_bboxes, const vector<NormalizedBBox>& pred_bboxes, const int label, const MatchType mat...
2018-03-12 00:42:04 1678 1
UFLDL exercise9 Convolution and Pooling
2016-04-13
UFLDL exercise8 Linear Decoder
2016-04-12
UFLDL exercise7 Stacked Autoencoder
2016-04-11
UFLDL exercise5 Softmax Regression
2016-04-11
UFLDL exercise6 Self-Taught Learning
2016-04-09
UFLDL exercise3&4 PCA and Whitening
2016-04-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人