- 博客(5)
- 收藏
- 关注
原创 【论文阅读笔记】PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI
深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬!
2024-04-25 14:38:32 1146
原创 【论文阅读笔记】3D-VLA: A 3D Vision-Language-Action Generative World Model
深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬!论文名称: 3D-VLA: A 3D Vision-Language-Action Generative World Model论文链接: https://arxiv.org/pdf/2403.09631.pdf。
2024-04-10 22:45:56 1387 1
原创 【论文阅读笔记】Large Multimodal Agents: A Survey
深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬!论文名称: Large Multimodal Agents: A Survey论文链接: https://arxiv.org/pdf/2402.15116.pdf大语言模型的诞生赋予了 agent 类人的决策和推理能力,如何将 LLM-based agent 拓展到多模态领域是学界新兴的研究热点。下面这张图是2022年11月到2024年2月在LMA领域的一些研究工作。
2024-03-06 15:39:27 1125
原创 [论文阅读笔记]Sequential Modeling Enables Scalable Learning for Large Vision Models
在大规模无标注文本的训练下诞生的大语言模型在CV和NLP等领域都取得了突出的表现,受其启发,文章尝试探索只使用视觉知识的大视觉模型的可行性, 在大视觉模型中复现大语言模型的scaling能力和上下文学习能力。这篇论文的贡献点主要有以下三个:提出了一个包含1.64B的图片数据集 Unified Vision Dataset v1 (UVDv1)提出了大视觉模型的初步架构 (),设计实验验证了大视觉模型的可行性,并提出了一系列针对下游任务的prompt方法。
2023-12-17 21:54:09 417
原创 [论文阅读笔记]Direct Preference Optimization: Your Language Model is Secretly a Reward Model
事实上,从对DPO的学习我们也可以看出,它是RLHF的由果推因,即使用(由奖励函数推出来的)policy反解奖励函数,然后代入Bradley-Terry偏好模型消去奖励函数,得到优化目标。从RLHF的流程上我们可以看出,先训练奖励模型——再利用奖励模型进行policy的强化学习,这种两步走的方式实际上比较繁琐,耗费计算资源。在RLHF第二阶段中,我们估计的是奖励函数,换了变量以后,我们其实就变成了直接估计policy,根据对RLHF和DPO的学习我们可以看出,他们的流程分别是这样的。
2023-12-16 20:37:52 600 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人