Vampire94482664-CSDN博客

原创【论文阅读笔记】PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI

深度学习小白，如果有不对的地方请大家多指正，对说的就是你大佬！

2024-04-25 14:38:32 1146

原创【论文阅读笔记】3D-VLA: A 3D Vision-Language-Action Generative World Model

深度学习小白，如果有不对的地方请大家多指正，对说的就是你大佬!论文名称: 3D-VLA: A 3D Vision-Language-Action Generative World Model论文链接: https://arxiv.org/pdf/2403.09631.pdf。

2024-04-10 22:45:56 1387 1

原创【论文阅读笔记】Large Multimodal Agents: A Survey

深度学习小白，如果有不对的地方请大家多指正，对说的就是你大佬！论文名称: Large Multimodal Agents: A Survey论文链接: https://arxiv.org/pdf/2402.15116.pdf大语言模型的诞生赋予了 agent 类人的决策和推理能力，如何将 LLM-based agent 拓展到多模态领域是学界新兴的研究热点。下面这张图是2022年11月到2024年2月在LMA领域的一些研究工作。

2024-03-06 15:39:27 1125

原创 [论文阅读笔记]Sequential Modeling Enables Scalable Learning for Large Vision Models

在大规模无标注文本的训练下诞生的大语言模型在CV和NLP等领域都取得了突出的表现，受其启发，文章尝试探索只使用视觉知识的大视觉模型的可行性, 在大视觉模型中复现大语言模型的scaling能力和上下文学习能力。这篇论文的贡献点主要有以下三个:提出了一个包含1.64B的图片数据集 Unified Vision Dataset v1 (UVDv1)提出了大视觉模型的初步架构 (),设计实验验证了大视觉模型的可行性，并提出了一系列针对下游任务的prompt方法。

2023-12-17 21:54:09 417

原创 [论文阅读笔记]Direct Preference Optimization: Your Language Model is Secretly a Reward Model

事实上，从对DPO的学习我们也可以看出，它是RLHF的由果推因，即使用(由奖励函数推出来的)policy反解奖励函数，然后代入Bradley-Terry偏好模型消去奖励函数，得到优化目标。从RLHF的流程上我们可以看出，先训练奖励模型——再利用奖励模型进行policy的强化学习，这种两步走的方式实际上比较繁琐，耗费计算资源。在RLHF第二阶段中，我们估计的是奖励函数，换了变量以后，我们其实就变成了直接估计policy，根据对RLHF和DPO的学习我们可以看出，他们的流程分别是这样的。

2023-12-16 20:37:52 600 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 【论文阅读笔记】PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI

原创 【论文阅读笔记】3D-VLA: A 3D Vision-Language-Action Generative World Model

原创 【论文阅读笔记】Large Multimodal Agents: A Survey

原创 [论文阅读笔记]Sequential Modeling Enables Scalable Learning for Large Vision Models

原创 [论文阅读笔记]Direct Preference Optimization: Your Language Model is Secretly a Reward Model

空空如也

空空如也

原创【论文阅读笔记】PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI

原创【论文阅读笔记】3D-VLA: A 3D Vision-Language-Action Generative World Model

原创【论文阅读笔记】Large Multimodal Agents: A Survey