fangzhang233-CSDN博客

原创集成多样性、saliency和对抗鲁棒性

通过异化显著性来增强集成模型的多样性。

2024-05-07 20:21:57 198

原创 Ensemble diversity 2 -- Improving Out-of-Distribution Detection via Epistemic Uncertainty Adversaria

2024-03-25 17:43:41 112 1

原创 Emsemble Diversity 1 -- SOMETHING FOR (ALMOST) NOTHING:IMPROVING DEEP ENSEMBLE CALIBRATIONUSING UN

由此可见，主要是在于如何利用unlabelled data。

2024-03-25 14:55:59 753 1

原创强化学习-探索-自监督- Action and Perception as Divergence Minimization

某种程度上讲，可能最快的学习就是这俩分布的最优传输吧？可以是很多东西，某种程度这是一个框架。x是过去和未来的历史，z是。

2024-01-06 16:06:10 328 1

原创两个COG上面关于蒙特祖玛的文章

一个是action-state RND，一个是 replay buffer RND。经验回放的直接到了 8000。效果似乎都不错，都有提升啊。

2023-12-06 23:52:05 28 1

看看论文里说的（ON BONUS-BASED EXPLORATION METHODS IN THE ARCADE LEARNING ENVIRONMENT）原来是右边只到了100 million就停止了，左边持续到 200 million！好险恶的雷氏对比法！长期到one billion来看，RND还是可以的。RND似乎只是在蒙特祖玛上提升特别多，别的不咋地。atari里对于游戏的分类，主要关注右边一列。nosiy net对于非地图类的提升也不错。从左边来看，不如RND。从右边来看，强于RND。

2023-12-05 15:59:18 55

原创强化学习探索 BEBOLD里的金句

对长的trajectory有偏好，这是真的，这也造成了agent有时候会来回蠕动。主要就是这个，对长trajectory有偏好，其他和novelD一样，嗯。

2023-12-02 20:56:26 28 1

原创关于强化学习探索的金句

用goal-conditioned policy 因为 This results in an algorithm that is completely stationary, because the goal-conditioned policy is independent of the uncertainty.RND 里的0.25% mask原来就是干这个用的。总的来说和Go-explore差不多。

2023-10-29 12:57:47 45 1

原创 DDIM文章阅读

这是证据下界，q是正向加噪过程。

2023-10-28 14:08:05 17 1

原创强化学习探索的buffer设计

某种程度上讲，这就是RL版本的广度优先搜索，把frontier作为buffer，然后把到达frontier里面的states的trajectories作为RL学习的目标（用imitation learning的方法）。这样子，一段trajectory是一段E value 单调递增的序列，并且保存对更之前和之后的trajectories的指针，然后buffer对这样一个序列进行整体的保存和评估。然后在exploration（else）里面，越是访问的概率小，越是被选中概率大。越是到后面越是exploit。

2023-10-26 21:41:02 96

原创 [强化学习-探索] RND 尝试

第二，agent 一旦死了，reward就会很低，所以我要像文章里一样，不能搞episodic的，而是要死了直接重开。因为伽马值很高，所以来回蠕动的话，尽管每一步的reward很小，只要狗的时间足够长，还是可以得到一个不错的回报。上面是训练的最后一步，可以看到，尽管episode已经2690步了，还是没出第一个房间，agent只是在来回蠕动。似乎效果很不好啊，一直卡在局部最优不动，好像很怕死的样子。看来intrinsic reward也会让agent陷入奇怪的local minima啊？

2023-10-14 18:09:51 65 1

原创【强化学习-探索】超越RND？Go-Explore: a New Approach for Hard-Exploration Problems

After exhausting some of the IR offered by that area, the policy may by chance begin consuming IR in another area. 也就是detachment.下面这个例子就是detachment最好的例子，注意随后忘记了紫色部分是因为神经网络的灾难性遗忘造成的。先把有趣的都收集起来，然后从那些有趣的开始（在此之前，不用random policy）可以用replay buffer。

2023-10-14 17:52:20 50

fangzhang233的博客