每日论文
文章平均质量分 92
Vicky__3021
想看看自己能爬多高
展开
-
SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models
目前基于指令的图像编辑方法,如InstructPix2Pix,由于在扩散模型中依赖于简单的CLIP文本编码器,在复杂场景下往往不能产生令人满意的结果。为了纠正这一点,本文介绍了SmartEdit,这是一种基于指令的图像编辑的新方法,它利用多模态大型语言模型(mllm)来增强其理解和推理能力。然而,在需要复杂推理的情况下,这些元素的直接集成仍然面临挑战。原创 2024-07-09 14:41:48 · 957 阅读 · 0 评论 -
Nerf相关研究
随着Luma AI的到来,再次将Nerf推向浪尖,实用性进一步得到强化。Nerf仍以极速的发展速度前行,越来越多的研究方向不断涌现。原创 2024-01-12 14:12:36 · 960 阅读 · 0 评论 -
(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
本文强调了扩展LVLM视觉分支的词汇量是非常重要的,并成功地设计了一个简单的方法来证明这一说法。实验表明,所提供的模型Vary在多任务中取得了不错的成绩,这主要得益于我们生成的新词汇。尽管Vary的表现令人满意,但我们认为如何有效地扩大视觉词汇量仍有很大的改进空间,特别是与成熟且相对简单的扩展文本词汇量的方法相比。我们希望Vary有用而高效的设计能够吸引更多的研究关注这一方向。原创 2024-01-10 11:05:37 · 1357 阅读 · 0 评论 -
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
现代大规模视觉-语言模型(LVLMs)采用了相同的视觉词汇-CLIP,可以涵盖大多数常见的视觉任务。然而,对于一些需要密集和细粒度视觉感知的特殊视觉任务,例如文档级OCR或图表理解,尤其是在非英语环境中,CLIP风格的词汇可能在分词视觉知识方面效率较低,甚至遇到词汇表外问题。因此,我们提出了一种名为Vary的有效方法,用于扩大LVLMs的视觉词汇。Vary的过程自然地分为两个步骤:生成和整合新的视觉词汇。原创 2024-01-02 14:16:27 · 818 阅读 · 0 评论 -
Nerflets: Local Radiance Fields for Efficient Structure-Aware 3D Scene Representation from 2D Superv
在室内和室外环境的实验中,我们发现nerflts:(1)比传统的全局nerf更有效地拟合和近似场景,(2)允许从任意视图中提取全景和测光渲染,(3)实现nerf很少执行的任务,如3D全景分割和交互式编辑。许多以前的方法都试图从图像中生成丰富的3D场景表示。KITTI是目前自动驾驶领域最重要的测试集之一,之前大概浏览了一遍,还存在很多疑问,这里对其做了进一步的学习,基本上了解了每个测试集的作用,KITTI主要是针对自动驾驶领域的图像处理技术,主要应用在自动驾驶感知和预测方面,其中也涉及定位和SLAM技术。原创 2023-05-10 10:00:00 · 339 阅读 · 1 评论 -
Ultra-NeRF: Neural Radiance Fields for Ultrasound Imaging
我们提出了一种物理增强的内隐神经表征(INR)用于超声成像,从重叠的超声扫描中学习组织特性。我们提出的方法利用基于光线跟踪的神经渲染进行新的视图合成。最近的出版物表明,INR模型可以从一组二维超声帧编码三维场景的表示。然而,这些模型未能考虑到超声成像固有的外观和几何形状的依赖于视图的变化。在我们的工作中,我们讨论了场景中依赖于方向的变化,并展示了受物理学启发的渲染提高了超声图像合成的保真度。特别地,我们实验证明,我们提出的方法生成几何上准确的b模式图像的区域,由于视图依赖的差异,超声图像的模糊表示。原创 2023-05-09 22:07:29 · 1421 阅读 · 0 评论 -
NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction
我们提出了一种新颖的神经表面重建方法,称为NeuS,用于从2D图像输入以高保真度重建对象和场景。现有的神经表面重建方法,例如DVR [Niemeyer等人,2020] 和IDR [Yariv等人,2020],需要前景掩模作为监督,容易被困在局部最小值中,并且因此与具有严重自遮挡或薄结构的对象的重建作斗争。同时,用于新颖视图合成的最近的神经方法,例如NeRF [Mildenhall等人,2020] 及其变体,使用体积渲染来产生具有优化鲁棒性的神经场景表示,即使对于高度复杂的对象也是如此。原创 2023-01-20 15:15:29 · 1175 阅读 · 0 评论 -
《每日论文》Problem Solving with Algorithms and Data Structures using Python.(第四章)
Problem Solving with Algorithms and Data Structures using Python.使用Python解决算法和数据结构的问题。By Brad Miller and David Ranum, Luther College目录:Problem Solving with Algorithms and Data Structures using Python.使用Python解决算法和数据结构的问题。4.1. Objectives4.1. 目的4.2. What原创 2021-02-06 21:27:31 · 719 阅读 · 0 评论 -
《每日论文》pynput Package Documentation
目录:pynput Package DocumentationForcing a specific backend强制指定后端Table of contents本期目录Handling the mouse处理鼠标Controlling the mouse控制鼠标Monitoring the mouse监视鼠标The mouse listener thread鼠标监听线程Handling mouse listener errors处理鼠标侦听器错误Toggling event listening for th原创 2021-01-07 21:21:30 · 836 阅读 · 0 评论 -
《每日论文》Problem Solving with Algorithms and Data Structures using Python.(第三章)
Problem Solving with Algorithms and Data Structures using Python.使用Python解决算法和数据结构的问题。By Brad Miller and David Ranum, Luther College目录:Problem Solving with Algorithms and Data Structures using Python.使用Python解决算法和数据结构的问题。3. Analysis3. 分析3.1. Objectives3原创 2021-01-04 23:33:53 · 430 阅读 · 0 评论 -
《每日论文》Problem Solving with Algorithms and Data Structures using Python.(第二章)
Problem Solving with Algorithms and Data Structures using Python.使用Python解决算法和数据结构的问题。By Brad Miller and David Ranum, Luther College目录:Problem Solving with Algorithms and Data Structures using Python.使用Python解决算法和数据结构的问题。2. A Proper Class2. 一个合适的类2.1. W原创 2020-12-28 15:57:03 · 682 阅读 · 0 评论 -
《每日论文》Problem Solving with Algorithms and Data Structures using Python.(第一章)
Problem Solving with Algorithms and Data Structures using Python.使用Python解决算法和数据结构的问题。By Brad Miller and David Ranum, Luther CollegeAssignments分配There is a wonderful collection of YouTube videos recorded by Gerry Jenkins to support all of the chapters原创 2020-12-22 18:16:16 · 2740 阅读 · 3 评论