皇铁生-CSDN博客

原创【强化学习】Dueling Network Architectures for Deep Reinforcement Learning (2016)

作者认为估计每个action的价值是没有必要的，例如在Enduro游戏中，仅仅当碰撞要发生时，判断左转还是右转才是有效的。在一些状态下，知道该做什么action是首要重要的，但是在一些其他状态下，action的选择对于产生的结果是没有影响的。然而state value的估计对于每个状态是至关重要的。作者说这个方法在存在多个相似的action时效果很好。所以作者重新定义了Q值：V表示state...

2019-04-30 14:58:44 1441

原创【强化学习】Prioritized Experience Replay（2016）

RL最简单的形式是，在单独的更新后就立刻丢弃掉到来的数据。伴随而来的有2个问题：强相关的更新打破了随机梯度下降算法的假定一些少见的experience可能会在之后有用经验回放解决了2个问题：通过融合一些近期的经验有可能打破相关性一些少见的经验会被重复用到这篇文章主要研究与所有的transition被均匀回放相比，哪种transition被回放可以是的经验回放更加有效。之前有研究...

2019-04-25 23:02:39 3448

原创【强化学习】Deep Reinforcement Learning with Double Q-learning（2015）

2015传统的q learning被认为会过高估计action value，因为它包括了一个maximization step，这样就倾向于过高的估计价值的大小。之前的工作中，高估被归因为function approximation有限（？）。本文统一了这些观点，提出当action value不正确时，高估就会出现，这是误差出现的源头。无论是标准的Q-learning还是DQN，都是用相同的...

2019-04-25 15:17:00 2304

原创【强化学习】Human-level control through deep reinforcement learning（2015）

强化学习中，智能体面对的一个问题是：它们必须从高维输入得到有效的环境表示，并且可以把这些传递给新的环境中。当非线性方程approximator例如神经网络被用于表示Q function，强化学习酒会不稳定甚至发散，不稳定性有以下原因：在观察序列中的相关性。Q的小的更新可能会严重的改变策略，从而改变数据分布，action-value（Q）和target value之间的联系（为什么？？）...

2019-04-22 16:47:00 713

原创【强化学习】Playing Atari with Deep Reinforcement Learning （2013）

Playing Atari with Deep Reinforcement Learning （2013）这篇文章提出了第一个可以直接用强化学习成功学习控制policies的深度学习模型。输入是raw pixels，输出是可以估计出为了的奖励的value function。Introduction学习直接从高维的感观输入（视觉，语音）去直接控制智能体是强化学习一个长期的挑战。一些成功的R...

2019-04-18 19:40:42 2005

原创 Actor-Critic Instance Segmentation

这篇文章提出了用actor-critic方法解决分割问题，actor预测是mask并且利用了同时从训练好的critic网络中产生的梯度。文章形成了state，action，和reward为了使得critic model有预测的长期效果并且将信息合成到梯度信号中。之前有研究认为实例分割可以被认为是序列的视觉任务，因为很多证据表示人眼的很多视觉任务都是被按顺序的解决的。分割的正确率依赖于大量的obj...

2019-04-15 22:38:56 482

原创【检测】Prime Sample Attention in Object Detection

Prime Sample Attention in Object Detection作者：CUHK SenseTime Joint Lab， NTU在目标检测中的一个普遍认知就是应该平等的对待每个sample和目标。这篇文章研究了不同的样本对于最终结果的影响。作者认为在每个minibatch中的样本既不是独立的也不是同样重要的，所以一个平均的结果并不能意味是一个更高的mAP。作者提出了Prim...

2019-04-11 16:32:56 3054 1

原创【检测】FCOS: Fully Convolutional One-Stage Object Detection

现在的主流目标检测算法大部分都是先设定好anchor。虽然这个方法可以取得一些有效的成功，但是基于anchor的方法仍然存在着一些缺点：Anchor的尺寸，分布率和数目对于检测结果的影响都很大。由于anchor的尺寸的分布率是固定的，在目标尺寸差距比较大，尤其是小物体多的情况下检测就会遇到困难为了得到一个高的召回率。基于anchor的检测器就需要密集的放置anchor。然而在这些ancho...

2019-04-09 00:56:06 2130

原创【分割】TensorMask: A Foundation for Dense Object Segmentation

论文阅读：TensorMask: A Foundation for Dense Object Segmentation这是第一次看分割的论文，据说相当于分割界的yolo。现在分割界的方法主要是由先检测出目标的bounding boxes，再修剪和分割这些区域，大致都是mask rcnn一类的。这篇论文研究了密集的基于滑动窗口的实例分割。这项任务远远不同于语义分割和目标检测，因为在每个空间位置的...

2019-04-01 19:04:44 540

HTS's Blog