
粉丝的投稿
文章平均质量分 83
深度之眼
这个作者很懒,什么都没留下…
展开
-
【论文解读】LERF:语言嵌入的辐射场(ICCV 2023 Oral)
人类使用自然语言来描述物理世界,并根据视觉外观、语义、抽象关联或可操作性等多种属性来指代特定的三维位置。在这项工作中,我们提出了语言嵌入辐射场(LERFs),这是一种将现成模型(如 CLIP)中的语言嵌入到 NeRF 中的方法,可以在 3D 中实现这类开放式语言查询。LERF 通过沿训练射线对 CLIP 嵌入进行体积渲染,在 NeRF 中学习密集的多尺度语言场,并在训练视图中对这些嵌入进行监督,以提供多视图一致性并平滑底层语言场。原创 2024-01-20 16:00:59 · 3112 阅读 · 0 评论 -
【论文解读】SiamMAE:用于从视频中学习视觉对应关系的 MAE 简单扩展
我们的目标是开发一种学习对应关系的自我监督方法。为此,我们研究了 MAE对视频数据的简单扩展(图 1)。在本节中,我们描述了连体蒙版自动编码器的关键组件。图 1:Siamese Masked 自动编码器。在预训练期间,我们随机采样一对视频帧并随机屏蔽未来帧的大部分 (95%) 块,同时保持过去帧不变。这两帧由 ViT [31] 参数化的连体编码器独立处理。解码器由一系列交叉注意层组成,并预测未来帧中丢失的补丁。原创 2024-01-13 18:18:37 · 2552 阅读 · 0 评论 -
【论文解读】基于神经辐射场NeRF的像素级交互式编辑(Seal-3D)
随着隐式神经表征或神经辐射场(NeRF)的普及,人们迫切需要与隐式三维模型交互的编辑方法,以完成重建场景的后期处理和三维内容创建等任务。虽然以前的作品从不同角度探索了神经辐射场编辑,但它们在编辑灵活性、质量和速度方面受到限制,无法提供直接的编辑响应和即时预览。关键的挑战在于如何构想一种本地可编辑的神经表征,它能直接反映编辑指令并即时更新。原创 2024-01-06 18:48:25 · 2446 阅读 · 0 评论 -
2023吉利汽车大模型算法工程师面试经验
来源:投稿 作者:LSC编辑:学姐问了很多问题,包括实习的项目经验、各种计算机、人工智能的基础,时长1h30min。原创 2024-01-01 18:45:00 · 1597 阅读 · 0 评论 -
【论文解读】用于概念标定的逻辑强化大模型LEFT(NeurIPS 2023)
VisProg 和 ViperGPT 等最新研究成果巧妙地组成了视觉推理的基础模型--利用大型语言模型(LLM)生成可由预先训练的视觉语言模型执行的程序。然而,它们只能在有限的领域(如二维图像)中运行,无法充分发挥语言的通用性:像 "左 "这样的抽象概念也可以基于三维、时间和动作数据,如向左移动。这种有限的泛化能力源于这些纯推理方法无法学习或调整预先训练好的模型以适应新的领域。原创 2023-12-29 16:09:36 · 2253 阅读 · 0 评论 -
【论文解读】3D视觉标定的显式文本解耦和密集对齐(CVPR 2023)
三维视觉标定的目的是寻找具有丰富语义线索的自由形式的自然语言描述所提到的点云中的物体。然而,现有的方法要么提取与所有单词耦合的句子级特征,要么更多地关注对象名称,这将失去单词级信息或忽略其他属性。为了缓解这些问题,我们提出了显式解耦句子中的文本属性的EDA,并在这种细粒度语言和点云对象之间进行密集对齐。具体来说,我们首先提出了一个文本解耦模块,为每个语义组件生成文本特征。然后,我们设计了两个损失来监督两个模态之间的密集匹配:位置对齐损失和语义对齐损失。原创 2023-12-24 17:45:00 · 2627 阅读 · 0 评论 -
【算法面经】九维数据CV算法工程师一面
(1)自注意力层:该层用于计算输入序列中每个位置的注意力权重,以便在不同位置捕捉不同关系。它包括多个注意力头,每个头都有自己的权重矩阵。参数数量如下:查询权重矩阵(Q):形状为(x, x)。键权重矩阵(K):形状为(x, x)。值权重矩阵(V):形状为(x, x)。输出权重矩阵(O):形状为(x, x)。(2)前馈神经网络:这是一个全连接的前馈神经网络层,用于每个位置的特征转换。参数数量如下:第一个全连接层的权重矩阵:形状为(x, y),其中y是隐藏层的维度。原创 2023-12-20 16:51:09 · 1677 阅读 · 0 评论 -
【论文解读】ICLR 2024高分作:ViT需要寄存器
Transformer最近已成为学习视觉表示的强大工具。在本文中,我们识别并表征监督和自监督 ViT 网络的特征图中的伪影。这些伪影对应于推理期间主要出现在图像的低信息背景区域中的高范数标记,这些标记被重新用于内部计算。我们提出了一个简单而有效的解决方案,基于向 Vision Transformer 的输入序列提供额外的令牌来填补该角色。原创 2023-12-14 17:01:09 · 2537 阅读 · 1 评论 -
2023微博AIGC算法工程师一面 面试题
介绍实习项目, 聊的比较详细,但是我实习项目限制比较多,做的不够深入。IOU是交并比,图像的交集除以图像的并集 变种: GIOU DIOU CIOU。原创 2023-12-09 17:45:00 · 2243 阅读 · 0 评论 -
2023阿里智能互联算法工程师 机器学习一面
决策树可以被看作是GBDT中的基本学习器之一。在GBDT中,每棵树都是通过迭代学习而来的,每一棵树都试图纠正前一棵树的预测误差。通常,GBDT使用回归树(Regression Tree)作为基学习器。GBDT通过将多棵决策树组合在一起来构建一个更强大的模型,这些树相互协作,纠正前一棵树的不足,从而提高整体性能。GBDT的目标是最小化损失函数。左值是是通常可以放在等号左边的表达式,右值是是通常只能放在等号右边的表达式。原创 2023-12-07 17:02:29 · 2148 阅读 · 0 评论 -
【论文解读】NuScenes-QA:自动驾驶场景的多模态视觉问答基准
我们在自动驾驶背景下引入了一种新颖的视觉问答(VQA)任务,旨在根据街景线索回答自然语言问题。与传统的VQA任务相比,自动驾驶场景中的VQA提出了更多的挑战。首先,原始视觉数据是多模态的,包括分别由相机和激光雷达捕获的图像和点云。其次,由于连续、实时采集,数据是多帧的。第三,室外场景呈现出移动的前景和静态的背景。现有的 VQA 基准无法充分解决这些复杂性。为了弥补这一差距,我们提出了 NuScenes-QA,这是自动驾驶场景中 VQA 的第一个基准,包含 34K 视觉场景和 460K 问答对。原创 2023-12-02 16:12:36 · 2863 阅读 · 0 评论 -
【论文解读】Edit-DiffNeRF:使用2D-扩散模型编辑3D-NeRF
最近的研究表明,将预训练的扩散模型与神经辐射场(NeRF)相结合,是一种很有前途的文本到 3D 的生成方法。简单地将 NeRF 与扩散模型相结合会导致跨视图不一致和风格化视图合成的退化。为了应对这一挑战,我们提出了 Edit-DiffNeRF 框架,它由一个冻结的扩散模型、一个用于编辑扩散模型潜在语义空间的 delta 模块和一个 NeRF 组成。我们的方法不是为每个场景训练整个扩散模型,而是通过 delta 模块在冻结的预训练扩散模型中编辑潜在语义空间。原创 2023-11-25 19:15:00 · 2414 阅读 · 1 评论 -
58同城算法工程师一面&二面 面试题
它用于处理海量数据,其核心思想是将大规模数据集分为多个小的子集,然后并行处理这些子集,最后将结果进行合并。我介绍了resnet,inceptionnet, yolo模型等(1)欠采样(2)过采样(3)平衡读取数据(4)设置权重,对样本较少的数据设置较高的训练权重(5)使用平衡损失函数,比如focal loss等(6)数据增强Focal Loss 最初由物体检测领域的研究者提出,其主要目标是减轻模型在训练过程中对大多数背景类别的关注,从而更好地处理少数类别的样本。原创 2023-11-22 17:18:48 · 994 阅读 · 0 评论 -
ICCV 23丨3D-VisTA:用于 3D 视觉和文本对齐的预训练Transformer
3D视觉语言标定(3D-VL)是一个新兴领域,旨在将3D物理世界与自然语言连接起来,这对于实现具身智能至关重要。当前的 3D-VL 模型严重依赖复杂的模块、辅助损失和优化技巧,这需要简单且统一的模型。在本文中,我们提出了 3D-VisTA,这是一种用于 3D 视觉和文本对齐的预训练 Transformer,可以轻松适应各种下游任务。3D-VisTA 仅利用自注意力层进行单模态建模和多模态融合,无需任何复杂的特定于任务的设计。原创 2023-11-16 17:00:43 · 1399 阅读 · 0 评论 -
BMVC 23丨多模态CLIP:用于3D场景问答任务的对比视觉语言预训练
训练模型将常识性语言知识和视觉概念从 2D 图像应用到 3D 场景理解是研究人员最近才开始探索的一个有前景的方向。然而,2D 提炼知识是否可以为下游 3D 视觉语言任务(例如 3D 问答)提供有用的表示仍然尚未得到充分研究。在本文中,我们提出了一种新颖的 3D 预训练视觉语言方法,即 Multi-CLIP,该方法使模型能够学习基于语言的且可转移的 3D 场景点云表示。原创 2023-11-11 18:00:00 · 1618 阅读 · 0 评论 -
ECCV 22丨BUTD-DETR:图像和点云的语言标定Transformer
在二维和三维场景中,大多数模型的任务都是将指涉语句置地,学会从预先训练好的检测器提供的对象建议库中选择指涉对象。这是限制性的,因为话语可能涉及不同粒度级别的视觉实体,例如椅子、椅子腿或椅子前腿的尖端,这些可能被检测器错过。我们提出了一种语言标定模型,该模型关注引用话语和根据预先训练的检测器计算的对象备选框池,以使用检测头解码引用的对象,而不从池中选择它们。通过这种方式,它可以得到强大的预训练目标检测器的帮助,而不受其失误的限制。原创 2023-10-30 17:01:11 · 268 阅读 · 0 评论 -
ICLR 2023丨3DSQA:3D 场景中的情景问答
我们提出了一项新任务来对具身智能体的场景理解进行基准测试:3D 场景中的情境问答 (SQA3D)。给定场景上下文(例如 3D 扫描),SQA3D 要求被测智能体首先按照文本描述了解其在 3D 场景中的情景(位置、方向等),然后推理其周围环境并回答该环境下的问题情况。基于 ScanNet 的 650 个场景,我们提供了一个围绕 6.8k 个独特情况的数据集,以及针对这些情况的 20.4k 个描述和 33.4k 个不同的推理问题。这些问题考察智能代理的广泛推理能力,从空间关系理解到常识理解、导航和多跳推理。原创 2023-10-25 16:32:16 · 1142 阅读 · 0 评论 -
NeurIPS 23 Spotlight丨3D-LLM:将3D世界注入大语言模型
大型语言模型 (LLM) 和视觉语言模型 (VLM) 已被证明在多项任务上表现出色,例如常识推理。尽管这些模型非常强大,但它们并不以 3D 物理世界为基础,而 3D 物理世界涉及更丰富的概念,例如空间关系、可供性、物理、布局等。在这项工作中,我们建议将 3D 世界注入大型语言模型中,并引入全新的 3D-LLM 系列。具体来说,3D-LLM 可以将 3D 点云及其特征作为输入,并执行一系列与 3D 相关的任务,包括字幕、密集字幕、3D 问答、任务分解、3D 基础、3D 辅助对话、导航和很快。原创 2023-10-21 18:00:00 · 947 阅读 · 1 评论 -
2023 Datawhale数据分析实习面经
一面: 项目偏少,主要编程、原理,比较重视基础二面: 项目细节三面: 一般是HR面。想不想来、在哪读书、为什么投我们公司关注下方《学姐带你玩AI》🚀🚀🚀算法工程师万能简历公式+200多个简历模板(中英文)回复“简历”轻松获取!原创 2023-10-22 17:45:00 · 250 阅读 · 0 评论 -
2023旷视自驾感知算法暑期实习一面
来源:投稿 作者:LSC编辑:学姐。原创 2023-09-28 16:34:02 · 313 阅读 · 0 评论 -
图表示学习经典方法——GCN&GAE
未来的研究方向包括开展更加高效的图嵌入方法,解决大规模图数据上的图表示学习问题。早期的图表示学习方法主要是基于图遍历(Graph Traversal)的方法,例如随机游走(Random Walks)和基于网络传播(Network Propagation)的方法。GAE的目标是重建图数据,将节点特征作为输入,将其压缩为低维度的表示,然后解压缩得到重构的图。未来的研究应该聚焦于解决大规模图数据上的图表示学习问题和如何更好地融合不同尺度的信息,以及探索更广泛的应用。此外,还有一些其他的图表示学习方法,原创 2023-09-27 17:29:03 · 1464 阅读 · 0 评论 -
CVPR 23丨适用于大型城市场景的网格引导神经辐射场(NeRF)
由于模型容量有限,纯粹基于 MLP 的神经辐射场(基于 NeRF 的方法)经常会出现拟合不足,在大规模场景上呈现模糊渲染的问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 来分别对每个区域进行建模,从而导致训练成本和子 NeRF 数量随着场景的扩展而线性扩展。另一种解决方案是使用特征网格表示,它计算效率高,并且可以自然地扩展到具有更高网格分辨率的大场景。然而,特征网格往往受到较少的约束,并且经常达到次优的解决方案,在渲染中产生噪声伪影,特别是在具有复杂几何和纹理的区域。原创 2023-09-17 17:15:00 · 1027 阅读 · 0 评论 -
【面试题】2023知乎暑期实习算法实习生(LLM方向)面经
有一个无序的整数数组,从数组中可以任意选择两个不重复的数字,以这两个数字所在的位置,可以建立两堵墙,以两个数字坐在位置的距离为底,可以生成一个容器,这个容器的可以装 min(nums[i], nums[j])*[j-i] 单位水,请问最大的装水单位是多少?方法1: 暴力int n;i < n;++i)j < n;方法2: 双指针int mi;mi = a[r];r--;l++;return res;原创 2023-09-10 17:45:00 · 469 阅读 · 0 评论 -
微调文本到图像扩散模型新方法DreamBooth,实现主题驱动生成(CVPR 2023)
大型文本到图像模型在人工智能的发展中实现了显着的飞跃,能够根据给定的文本提示合成高质量和多样化的图像。然而,这些模型缺乏在给定参考集中模仿受试者外观并在不同背景下合成它们的新颖表现的能力。在这项工作中,我们提出了一种文本到图像扩散模型“个性化”的新方法。给定一个主题的几张图像作为输入,我们对预训练的文本到图像模型进行微调,使其学会将唯一标识符与该特定主题绑定。一旦将主体嵌入到模型的输出域中,就可以使用唯一标识符来合成不同场景中主体的新颖的真实感图像。原创 2023-09-09 18:00:00 · 595 阅读 · 0 评论 -
【面试题】2023阿里飞猪视觉算法岗一面面经
实习主要做最新方向的科研和学习,应用到业务上,不知道参与业务,比较新颖。原创 2023-09-05 16:58:20 · 333 阅读 · 0 评论 -
CVPR 2023 | 多样性可测量异常检测(DMAD)
两个版本的多样性可测量异常检测框架。多尺度金字塔变形场估计为 O ,反向过程为。a) PDM版本计算重建后的正向变形 O。b) PPDM版本采用循环一致的前后变形,并且向前变形应用于输入。原创 2023-09-03 18:00:00 · 634 阅读 · 0 评论 -
【3D视觉】基于零件库增强的形状重建最新方法
系统以目标三维体积点云 T 和零件库 B 为输入,并从零件库中输出一组近似 T 的变换零件 P。它首先预训练变分自动编码器(VAE),将所有零件投影到连续的潜在空间中。这使能够将组合零件检索问题转化为连续优化问题,该问题分三个阶段进行:①零件优化,②零件转换和③零件借用。阶段①直接优化零件latent code e、平移 t 和旋转 r ,以重建目标形状。阶段②使用来自阶段①的优化零件来分割输入目标形状,并将它们重新投影回潜在空间。阶段③是一个可选阶段,它借鉴了其他重建良好的类似形状的良好零件分解。原创 2023-09-02 18:15:00 · 213 阅读 · 0 评论 -
CVPR 23 | 多模态工业异常检测最新方法:M3DM
[Paper]:https://arxiv.org/pdf/2303.00601.pdf[Code]:https://github.com/nomewang/M3DM工业异常检测旨在发现产品的异常区域,在工业质量检测中发挥着重要作用。在工业场景中,很容易获得大量的正常示例,但缺陷示例很少。大多数现有的工业异常检测方法都是基于2D图像的。然而,在工业产品的质量检查中,人类检查员利用3D形状和颜色特征来确定它是否是缺陷产品,其中3D形状信息对于判断是重要和必要的。无监督异常检测的核心思想是找出异常和正态表示之间原创 2023-08-27 18:15:00 · 4071 阅读 · 0 评论 -
隐式表达的更进一步:基于NeRF的形状可编辑方法
零件感知可控 3D 形状生成和编辑:在没有明确的 3D 监督信号情况下解决了部件感知 3D 形状生成和编辑的任务。先前的部件感知生成模型在训练时假设有3D 监督信号,且只允许改变物体的形状。在这项工作中,提出了PartNeRF,这是一种生成模型,能够编辑生成形状的形状和外观纹理,这些形状被参数化为局部定义的NeRF的集合。原创 2023-08-26 18:50:40 · 288 阅读 · 0 评论 -
【面试复盘】知乎暑期实习算法工程师二面
判断一个链表是不是会文链表class ListNode:4. 自注意力机制5. BN和LN的区别6. 反问实习要半年才能转正业务(主要是大数据和用户画像的构建,模型方面偏向推荐和NLP)关注下方《学姐带你玩AI》🚀🚀🚀算法工程师万能简历公式+200多个简历模板(中英文)回复“简历”轻松获取!码字不易,欢迎大家点赞评论收藏!原创 2023-08-19 17:45:00 · 203 阅读 · 0 评论 -
ACM TOG丨隐式形状表征的下一步:用”意大利面“进行形状编辑
来源:投稿 作者:橡皮编辑:学姐。原创 2023-08-13 18:30:00 · 243 阅读 · 0 评论 -
【面试复盘】知乎暑期实习算法实习生(LLM方向)面经
有一个无序的整数数组,从数组中可以任意选择两个不重复的数字,以这两个数字所在的位置,可以建立两堵墙,以两个数字坐在位置的距离为底,可以生成一个容器,这个容器的可以装 min(nums[i], nums[j])*[j-i] 单位水,请问最大的装水单位是多少?方法1: 暴力int n;i < n;++i)j < n;方法2: 双指针int mi;mi = a[r];r--;l++;return res;原创 2023-08-11 18:13:02 · 563 阅读 · 0 评论 -
CVPR 2023丨最新3D点云补全方法:ProxyFormer
一个Proxy代表了点云的一个局部区域。特征和位置。: 它结合了不完整的种子特征和不完整的位置编码。(由FAPE获得)。: 它结合了预测的种子特征和随机位置编码。在训练过程中,MP也被分为:Predicted Missing Proxies (pre-MP): 它由缺失部分敏感的Transformer得到。True Missing Proxies (true-MP): 它结合了真正的缺失种子特征和真正的缺失位置编码 (由预训练的FAPE获得)。原创 2023-08-06 18:15:00 · 4934 阅读 · 0 评论 -
斯坦福大学提出在类别层级对多零件多关节三维拼装新方法
在本文中,目标是解决多部件多关节形状装配的任务。该任务模拟了真实世界的家具装配设置,其中多个造型零件通过接触接头以不同的方式连接,以形成复杂的造型几何结构。如图所示,我们得到了(a)多个形状的零件,其中每个零件都包含多个接头。对于我们的设置,使用桩孔接头对来表示允许的连接,类似于螺栓和螺母,其中只允许在相同接触几何形状的公件和母件之间进行匹配。我们的目标是(b)将所有销钉接头与孔接头正确连接,(c)将这些零件拼接在一起,(d)形成所需形状。多零件多关节形状装配任务定义如下:给定 1)一组3D零件点云。原创 2023-08-04 18:15:00 · 206 阅读 · 0 评论 -
英国留学准备—国内篇(申请材料、预算估计、行程安排、注意事项)
英国留学准备—国内篇来源:投稿 作者:卷舒编辑:学姐英国留学准备—国内篇。原创 2023-08-03 17:21:16 · 216 阅读 · 0 评论 -
基于半监督算法的工业图像缺陷检测方法:MemSeg
来源:投稿 作者:橡皮编辑:学姐论文:https://arxiv.org/ftp/arxiv/papers/2205/2205.00908.pdf代码:https://github.com/TooTouch/MemSeg。原创 2023-07-23 18:15:00 · 1504 阅读 · 0 评论 -
基于位置和邻域信息的图像异常检测与定位
来源:投稿 作者:橡皮编辑:学姐论文:https://arxiv.org/pdf/2211.12634v2.pdf。原创 2023-07-22 18:00:00 · 470 阅读 · 0 评论 -
最新异常检测方法SQUID,基于深度特征In-painting
将输入图像划分为N×N个不重叠的块,并将它们输入编码器进行特征提取。将训练两个生成器来重建原始图像。在重建的同时,将创建一个解剖模式字典,并通过一个新的记忆队列动态更新(§3.2);教师生成器直接使用编码器提取的特征;学生生成器使用由我们的绘画块(§3.3)增强的特征。教师和学生生成器通过知识提炼范式耦合。使用鉴别器来评估学生生成器重建的图像是真的还是假的。一旦经过训练,它也可以用于检测测试图像中的异常(§3.4)。(1)特征提取。我们将输入图像划分为N×N个不重叠的块,并将它们输入编码器进行特征提取。原创 2023-07-16 17:45:00 · 416 阅读 · 0 评论 -
基于WinClip的文本引导工业缺陷检测方法
通过CLIP文本编码器将各种状态和模板合成并转换为两个文本嵌入,作为类原型。类原型与WinCLIP中零样本AC/AS的CLIP图像编码器的多尺度特征相关。WinCLIP+将小窗口/中窗口补丁上的参考关联(patch/WindowAssociation)应用于基于视觉的异常评分图,这些异常评分图是为具有文本引导评分的小样本AS/AC聚合的。原创 2023-07-15 17:30:00 · 1387 阅读 · 0 评论 -
2023米哈游图像算法暑期实习面经
我只知道公司技术很厉害,游戏做的很好,但是我不喜欢玩游戏,从来没玩过,王者都没玩过,我只会玩斗地主...Input = [D, P] 输入一个D*P的二维特征矩阵写训练和推理过程的代码实现(之前没写过,只是知道原理,还不一定理解的对)最近在忙工程,没时间好好复习理论知识,忘了好多,要好好补了。原创 2023-07-14 17:22:10 · 1017 阅读 · 0 评论