自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 集成多样性、saliency和对抗鲁棒性

通过异化显著性来增强集成模型的多样性。

2024-05-07 20:21:57 198

原创 Ensemble diversity 2 -- Improving Out-of-Distribution Detection via Epistemic Uncertainty Adversaria

2024-03-25 17:43:41 112 1

原创 Emsemble Diversity 1 -- SOMETHING FOR (ALMOST) NOTHING:IMPROVING DEEP ENSEMBLE CALIBRATIONUSING UN

由此可见,主要是在于如何利用unlabelled data。

2024-03-25 14:55:59 753 1

原创 强化学习-探索-自监督- Action and Perception as Divergence Minimization

某种程度上讲,可能最快的学习就是这俩分布的最优传输吧?可以是很多东西,某种程度这是一个框架。x是过去和未来的历史,z是。

2024-01-06 16:06:10 328 1

原创 强化学习-探索 - LEXA

2024-01-05 13:58:24 333 1

原创 两个COG上面关于蒙特祖玛的文章

一个是action-state RND,一个是 replay buffer RND。经验回放的直接到了 8000。效果似乎都不错,都有提升啊。

2023-12-06 23:52:05 28 1

原创 关于蒙特祖玛的复仇之实验

看看论文里说的(ON BONUS-BASED EXPLORATION METHODS IN THE ARCADE LEARNING ENVIRONMENT)原来是右边只到了100 million就停止了,左边持续到 200 million!好险恶的雷氏对比法!长期到one billion来看,RND还是可以的。RND似乎只是在蒙特祖玛上提升特别多,别的不咋地。atari里对于游戏的分类,主要关注右边一列。nosiy net对于非地图类的提升也不错。从左边来看,不如RND。从右边来看,强于RND。

2023-12-05 15:59:18 55

原创 强化学习探索 BEBOLD里的金句

对长的trajectory有偏好,这是真的,这也造成了agent有时候会来回蠕动。主要就是这个,对长trajectory有偏好,其他和novelD一样,嗯。

2023-12-02 20:56:26 28 1

原创 关于强化学习探索的金句

用goal-conditioned policy 因为 This results in an algorithm that is completely stationary, because the goal-conditioned policy is independent of the uncertainty.RND 里的0.25% mask原来就是干这个用的。总的来说和Go-explore差不多。

2023-10-29 12:57:47 45 1

原创 DDIM文章阅读

这是证据下界,q是正向加噪过程。

2023-10-28 14:08:05 17 1

原创 强化学习探索的buffer设计

某种程度上讲,这就是RL版本的广度优先搜索,把frontier作为buffer,然后把到达frontier里面的states的trajectories作为RL学习的目标(用imitation learning的方法)。这样子,一段trajectory是一段E value 单调递增的序列,并且保存对更之前和之后的trajectories的指针,然后buffer对这样一个序列进行整体的保存和评估。然后在exploration(else)里面,越是访问的概率小,越是被选中概率大。越是到后面越是exploit。

2023-10-26 21:41:02 96

原创 [强化学习-探索] RND 尝试

第二,agent 一旦死了,reward就会很低,所以我要像文章里一样,不能搞episodic的,而是要死了直接重开。因为伽马值很高,所以来回蠕动的话,尽管每一步的reward很小,只要狗的时间足够长,还是可以得到一个不错的回报。上面是训练的最后一步,可以看到,尽管episode已经2690步了,还是没出第一个房间,agent只是在来回蠕动。似乎效果很不好啊,一直卡在局部最优不动,好像很怕死的样子。看来intrinsic reward也会让agent陷入奇怪的local minima啊?

2023-10-14 18:09:51 65 1

原创 【强化学习-探索】超越RND?Go-Explore: a New Approach for Hard-Exploration Problems

After exhausting some of the IR offered by that area, the policy may by chance begin consuming IR in another area. 也就是detachment.下面这个例子就是detachment最好的例子,注意随后忘记了紫色部分是因为神经网络的灾难性遗忘造成的。先把有趣的都收集起来,然后从那些有趣的开始(在此之前,不用random policy)可以用replay buffer。

2023-10-14 17:52:20 50

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除