自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 【论文阅读笔记】PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI

深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬!

2024-04-25 14:38:32 1146

原创 【论文阅读笔记】3D-VLA: A 3D Vision-Language-Action Generative World Model

深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬!论文名称: 3D-VLA: A 3D Vision-Language-Action Generative World Model论文链接: https://arxiv.org/pdf/2403.09631.pdf。

2024-04-10 22:45:56 1387 1

原创 【论文阅读笔记】Large Multimodal Agents: A Survey

深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬!论文名称: Large Multimodal Agents: A Survey论文链接: https://arxiv.org/pdf/2402.15116.pdf大语言模型的诞生赋予了 agent 类人的决策和推理能力,如何将 LLM-based agent 拓展到多模态领域是学界新兴的研究热点。下面这张图是2022年11月到2024年2月在LMA领域的一些研究工作。

2024-03-06 15:39:27 1125

原创 [论文阅读笔记]Sequential Modeling Enables Scalable Learning for Large Vision Models

在大规模无标注文本的训练下诞生的大语言模型在CV和NLP等领域都取得了突出的表现,受其启发,文章尝试探索只使用视觉知识的大视觉模型的可行性, 在大视觉模型中复现大语言模型的scaling能力和上下文学习能力。这篇论文的贡献点主要有以下三个:提出了一个包含1.64B的图片数据集 Unified Vision Dataset v1 (UVDv1)提出了大视觉模型的初步架构 (),设计实验验证了大视觉模型的可行性,并提出了一系列针对下游任务的prompt方法。

2023-12-17 21:54:09 417

原创 [论文阅读笔记]Direct Preference Optimization: Your Language Model is Secretly a Reward Model

事实上,从对DPO的学习我们也可以看出,它是RLHF的由果推因,即使用(由奖励函数推出来的)policy反解奖励函数,然后代入Bradley-Terry偏好模型消去奖励函数,得到优化目标。从RLHF的流程上我们可以看出,先训练奖励模型——再利用奖励模型进行policy的强化学习,这种两步走的方式实际上比较繁琐,耗费计算资源。在RLHF第二阶段中,我们估计的是奖励函数,换了变量以后,我们其实就变成了直接估计policy,根据对RLHF和DPO的学习我们可以看出,他们的流程分别是这样的。

2023-12-16 20:37:52 600 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除