AiCharm-CSDN博客

原创 CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

我们提出了一种用于 3D 点云分析的非参数网络 Point-NN，它由纯不可学习的组件组成：最远点采样 (FPS)、k 最近邻 (k-NN) 和池化操作，具有三角函数.令人惊讶的是，它在各种 3D 任务上表现良好，不需要参数或训练，甚至超过了现有的完全训练模型。如图5所示，在Point-NN的顶部，我们首先替使用一个传统的可学习的分类头替代点存储库（上图A位置），这个轻量级的版本在ModelNet40上就实现了90.3%的分类准确率，只有0.3M的参数。通过标记，可以将视为3D训练集的编码类别知识。

2023-04-06 10:56:36 3919 2

原创深度学习实战（二）：AlexNet实现花图像分类

深度学习实战（二）：AlexNet实现花分类1. 数据集介绍2. AlexNet网络介绍3. model.py实现4. train.py实现4.1 相关包的加载4.2 数据预处理4.3 加载训练集4.4 加载验证集4.5 训练网络与验证网络4.6 完整代码4. Bug解决5. predict.py实现AlexNet在我之前的博客中已经做过详解，详情见：https://blog.csdn.net/muye_IT/article/details/123602605?spm=1001.2014.3001.5

2022-04-02 09:00:00 10424 12

原创每日学术速递8.11

我们介绍了 ReXTime，这是一个基准测试，旨在严格测试 AI 模型在视频事件中执行时间推理的能力。具体来说，ReXTime专注于跨时间推理，即当问题及其相应的答案出现在不同的视频片段中时，可以像人类一样理解。这种推理形式需要对视频片段之间的因果关系有深入的理解，甚至对前沿的多模态大型语言模型也提出了重大挑战。为了促进这种评估，我们开发了一个用于生成时间推理问答对的自动化管道，大大减少了对劳动密集型手动注释的需求。

2024-08-11 20:16:59 764 1

原创每日学术速递8.10

模型反转和成员推断攻击旨在重建和验证模型训练所依据的数据。但是，他们不能保证找到所有训练样本，因为他们不知道训练集的大小。在本文中，我们引入了一项新任务：数据集大小恢复，旨在直接根据模型的权重确定用于训练模型的样本数量。然后，我们提出了 DSiRe，这是一种用于恢复用于微调模型的图像数量的方法，在微调使用 LoRA 的常见情况下。我们发现 LoRA 矩阵的范数和频谱都与微调数据集大小密切相关;我们利用这一发现提出了一种简单而有效的预测算法。

2024-08-11 20:16:04 592

原创每日学术速递8.8

计算未经修剪的长视频中的重复动作是一项具有挑战性的任务，具有许多应用，例如康复。最先进的方法通过首先从采样帧生成时间自相似矩阵（TSM），然后将矩阵馈送到预测器网络来预测动作计数。然而，自相似矩阵并不是网络的最佳输入，因为它从逐帧嵌入中丢弃了太多信息。因此，我们重新思考如何利用 TSM 来计算重复动作，并提出一个学习嵌入并以全时间分辨率预测动作开始概率的框架。然后根据动作开始概率推断重复动作的数量。

2024-08-09 13:11:55 1167

原创每日学术速递8.7

现有的深度学习方法忽略了在复杂场景中存在的语义分割中至关重要的语义线索，包括杂乱的背景和半透明物体等。为了应对这些挑战，我们提出了一种特征放大网络（FANet）作为融合语义信息的骨干网络在多阶段使用新颖的特征增强模块。为了实现这一目标，我们提出了一种自适应特征增强（AFE）模块，它以并行方式受益于空间上下文模块（SCM）和特征细化模块（FRM）。SCM 旨在利用更大的内核杠杆来增加感受野，以处理场景中的尺度变化。而我们新颖的 FRM 负责生成语义线索，可以捕获低频和高频区域，以实现更好的分割任务。

2024-08-09 13:11:14 1374

原创每日学术速递8.6-1

视我们提出了一种新颖的方法，旨在解决单图像深度估计任务中具有挑战性的非分布数据所带来的复杂性。从由于不存在不利因素而促进深度预测的图像开始，我们系统地生成新的、用户定义的场景，并具有全面的挑战和相关的深度信息。这是通过利用具有深度感知控制的尖端文本到图像扩散模型来实现的，该模型以根据文本提示合成高质量图像内容而闻名，同时保留生成图像和源图像之间 3D 结构的一致性。任何单目深度网络的后续微调都是通过自蒸馏协议进行的，该协议考虑了使用我们的策略生成的图像以及它自己对简单、没有挑战性的场景的深度预测。

2024-08-06 14:16:45 1404

原创每日学术速递8.5-3

虽然神经辐射场 (NeRF) 已展现出卓越的品质，但其训练持续时间过长仍然是一个限制。可泛化且基于 MVS 的 NeRF 虽然能够缩短训练时间，但通常会在质量上进行权衡。本文提出了一种称为 BoostMVSNeRFs 的新颖方法，用于提高大规模场景中基于 MVS 的 NeRF 的渲染质量。我们首先确定基于 MVS 的 NeRF 方法的局限性，例如由于输入视图有限而导致视口覆盖范围受限和伪影。然后，我们通过提出一种在体渲染期间选择和组合多个成本体的新方法来解决这些限制。

2024-08-06 14:15:27 1107

原创每日学术速递8.5-2

假设所有类别的训练样本同时可用，深度卷积神经网络在医学图像分类方面取得了重大突破。然而，在现实的医疗场景中，人们普遍需要不断学习新的疾病，从而催生了医学领域的新兴领域——类增量学习（CIL）。通常，CIL 在接受新课程训练时会遭受灾难性遗忘。这种现象主要是由新旧类别之间的不平衡引起的，并且随着不平衡的医疗数据集变得更加具有挑战性。在这项工作中，我们引入了两种简单而有效的插件方法来减轻不平衡的不利影响。首先，我们提出了 CIL 平衡分类损失，以通过 logit 调整来减轻分类器对多数类别的偏差。

2024-08-06 14:13:49 939

原创每日学术速递8.5—1

我们提出了稳定视频 4D (SV4D)，这是一种用于多帧和多视图一致动态 3D 内容生成的潜在视频扩散模型。与之前依赖单独训练的生成模型进行视频生成和新视图合成的方法不同，我们设计了一个统一的扩散模型来生成动态 3D 对象的新视图视频。具体来说，给定单目参考视频，SV4D 为每个视频帧生成时间一致的新颖视图。然后，我们使用生成的新颖视图视频来有效地优化隐式 4D 表示（动态 NeRF），而无需在大多数先前的工作中使用繁琐的基于 SDS 的优化。

2024-08-05 00:06:32 1335

原创每日学术速递8.4

针对对抗性示例评估多模态模型的鲁棒性是确保用户安全的一个重要方面。我们对预处理的输入图像进行 L0 范数扰动攻击。我们在黑盒设置中针对四个多模态模型和两个单模态 DNN 启动它们，同时考虑了目标和非目标错误分类。我们的攻击目标是不到 0.04% 的受扰动图像区域，并集成受扰像素的不同空间定位：稀疏定位和以不同连续形状（行、列、对角线和补丁）排列的像素。据我们所知，我们是第一个评估三种最先进的多模态模型（ALIGN、AltCLIP、GroupViT）针对不同稀疏和连续像素分布扰动的鲁棒性的人。

2024-08-04 10:06:27 1143

原创每日学术速递8.3

当用户的输入指令不明确时，基于文本的编辑扩散模型表现出有限的性能。为了解决这个问题，我们建议 Specify ANd Edit (SANE)，用于基于扩散的编辑系统的零样本推理管道。我们使用大型语言模型（LLM ）将输入指令分解为特定指令，即应用到输入图像的明确定义的干预措施以满足用户的请求。我们受益于LLM-得益于专门为该任务设计的新颖的去噪指导策略，沿着原始指令导出指令。我们使用三个基线和两个数据集进行的实验证明了 SANE 在所有设置中的优势。

2024-08-03 10:43:52 663

原创每日学术速递8.2

在适应过程中，我们从以前的中间模型获得的主动选择的锚点的特征中学习，以便视觉持久引导的适应可以促进特征分布对齐和主动样本利用。模拟结果表明，我们的 QNL-Net 在利用更少的量子位的同时，在量子分类器中的二值图像分类中实现了最先进的准确度水平。为了应对这些挑战，论文提出了一种名为"Learn from the Learnt" (LFTL)的新范式，通过对比采样和视觉持久性引导的适应方法，利用从源预训练模型和主动迭代模型中学到的知识，以最小的额外开销实现领域适应。

2024-08-02 10:12:05 1387

原创分享丨CAAI名誉理事长李德毅院士：认知的形式化

人类认知的整个活动，就是如何解释、解决人类在生存和繁衍过程中所遇到的现实问题。通过分析古今中外著名的认知案例，概括人类认知的4种基本模式为记忆驱动的经验模式(OOA)、知识驱动的推理模式(OODA)、联想驱动的创造模式(OOCA)以及假说驱动的发现模式(OOHA)，用这4个相对独立的认知模式来完成认知的形式化，OOA和OOCA两个模式是由下而上思维，从物理空间转向认知空间；OODA和OOHA两个模式是由上而下思维，从认知空间转向物理空间。

2024-08-02 10:08:54 844

原创见证中国数据库的崛起：从追赶到引领的壮丽征程《一》

【纪录片】中国数据库前世今生在数字化潮流席卷全球的今天，数据库作为IT技术领域的“活化石”，已成为数字经济时代不可或缺的基础设施。那么，中国的数据库技术发展经历了怎样的历程？我们是如何在信息技术的洪流中逐步建立起自己的数据管理帝国的呢？腾讯云将邀请亲历数据库技术在中国从落地生根到蓬勃发展的技术专家们，与大家共同回顾中国数据库发展史上的重要时刻。

2024-08-01 01:25:32 1072

原创每日学术速递2024.03.14

我们设计了一个改进的 Transformer，而不是将人类编写的程序编译成 Transformers，它可以使用基于梯度的优化进行训练，然后自动转换为离散的、人类可读的程序。然而，由于迭代去噪，它们的性能通常会受到缓慢生成的影响。上下文学习 – 使用不同提示配置模型行为的能力 – 已经彻底改变了自然语言处理领域，减轻了对特定任务模型的需求，并为能够协助任何查询的通才模型铺平了道路.相比之下，计算机视觉在很大程度上停留在前一种状态：通常需要专门的解码器和微调协议来执行语义分割和深度估计等密集任务。

2024-03-14 16:11:04 972

原创每日学术速递6.14

本文的目标是开放词汇对象检测（OVOD） – 建立一个模型，该模型可以检测超出训练中所见类别集的对象，从而使用户能够在推理时指定感兴趣的类别，而无需重新训练模型.我们采用标准的两阶段对象检测器架构，并探索三种指定新类别的方法：通过语言描述、通过图像示例或通过两者的组合。(ii) 我们基于视觉的分类器在之前的工作中表现与基于文本的分类器一样好；我们的目标是通过联合解决方案减轻来自各种来源的这些缺陷：我们利用生成对抗网络 (GAN) 的能力来生成逼真的图像，并使用它们来增强 NeRF 3D 场景重建的真实感。

2023-06-20 16:45:26 1122 1

原创每日学术速递6.13

我们对树高的预测显示出 2.9 m 的平均误差，并且在加利福尼亚州存在的整个树高范围内显示出相对较低的系统偏差。我们的模型成功地估计了高达 50 m 的冠层高度而没有饱和，优于全球模型中现有的冠层高度产品。我们使用的方法允许重建从天底光学机载图像观察到的单个树木的三维结构，这表明即使在存在图像失真的情况下也具有相对稳健的估计和映射能力。然后，我们为标准的、未操纵的网络中发生的类似现象提供证据：特征可视化的处理方式与标准输入的处理方式截然不同，这让人怀疑它们“解释”神经网络如何处理自然图像的能力。

2023-06-20 16:43:55 1218

原创每日学术速递6.12

在本文中，我们提出了一种在叙述的操作视频中本地化程序活动步骤的方法。在没有任何形式的人工监督的情况下，我们的模型通过匹配三种模式：框架、旁白和步骤描述，学会在时间上将程序文章的步骤置于操作视频中。我们的系统保留了先前方法在建模复杂场景和视图相关效果方面的优势，而且还能够从具有复杂场景动态和不受约束的相机轨迹的长视频中合成照片般逼真的新颖视图。我们展示了对动态场景数据集的最先进方法的显着改进，并将我们的方法应用于具有挑战性相机和物体运动的野外视频，在这些视频中，先前的方法无法产生高质量的渲染。

2023-06-20 16:11:22 1222

原创每日学术速递6.11

然而，在弱监督学习中，大部分数据都是通过弱噪声源标记的，因此设计有效的增强方法仍然很重要。源内提升将局部性引入基学习器，并通过在粒度变化的错误区域上训练新的基学习器，使每个基学习器能够专注于特定的特征机制。在没有对特定任务数据或注释进行任何额外的微调或监督的情况下，DIFT 能够在识别语义、几何和时间对应方面优于弱监督方法和有竞争力的现成特征。我们引入了一个包含 100,000 个视频指令对的新数据集，用于训练通过手动和半自动管道获取的 Video-ChatGPT，该数据集易于扩展且对标签噪声具有鲁棒性。

2023-06-20 15:44:09 1482

原创每日学术速递6.10

与之前专注于静态图像理解的视觉 LLM（如 MiniGPT-4 和 LLaVA）不同，Video-LLaMA 主要解决视频理解中的两个挑战：（1）捕捉视觉场景中的时间变化，（2）整合视听信号。在这里，我们介绍了反事实世界建模 (CWM)，这是一个构建视觉基础模型的框架：一个统一的、无监督的网络，可以提示执行各种视觉计算。综上所述，我们的结果表明，CWM 是在概念上简单的基础上统一机器视觉的多方面分支的有前途的途径。我们使用以完全无监督的方式生成的离散语音单元，因此我们的框架可用于非书面语言。

2023-06-20 15:41:16 1558

原创每日学术速递6.9

尽管接受了 11 亿个掩码的训练，但 SAM 的掩码预测质量在许多情况下仍不尽如人意，尤其是在处理具有复杂结构的物体时。在本文中，我们使用细粒度的人类反馈（例如，哪个句子是错误的，哪个子句子是不相关的）作为显式训练信号。我们介绍了细粒度 RLHF，这是一个框架，可以从两个方面细粒度的奖励函数中进行训练和学习：（1）密度，在生成每个片段（例如句子）后提供奖励；此外，我们引入了引导密码生成的概念，我们利用 PassGPT 采样过程来生成匹配任意约束的密码，这是当前基于 GAN 的策略所缺乏的壮举。

2023-06-20 15:38:20 1736

原创每日学术速递6.7

我们提出了一种称为 NeRO 的基于神经渲染的方法，用于从在未知环境中捕获的多视图图像重建反射物体的几何形状和 BRDF。大量实验表明，我们的方法能够在不知道环境光和物体遮罩的情况下，仅从摆好的 RGB 图像中准确地重建反射物体的几何形状和 BRDF。我们的结果证明了多感官感知的重要性，并揭示了视觉、听觉和触觉在不同的以对象为中心的学习任务中的各自作用。仅使用合成图像，StableRep 学习的表示在大规模数据集上超过了 SimCLR 和 CLIP 使用同一组文本提示和相应的真实图像学习的表示的性能。

2023-06-20 15:34:05 1952

原创每日学术速递6.8

我们表明，如果 StyleGAN 从潜在的 w 中生成 G(w) ，那么对于每种类型的固有图像，都有一个固定的偏移量 dc ，因此 G(w+dc) 是 G(w) 的那种类型的固有图像。我们的实验表明，确实可以跨模态转移上下文学习能力：我们的模型大大提高了 VL 任务的上下文学习能力，甚至可以显着补偿模型的大小。我们的方法适用于任意刚性物体，即使在视觉纹理基本不存在的情况下也是如此。我们方法的关键是神经对象场，它与姿势图优化过程同时学习，以便将信息稳健地积累到一致的 3D 表示中，同时捕获几何和外观。

2023-06-20 15:33:46 1785

原创每日学术速递6.5

在这项工作中，我们提出了一种内存高效的零阶优化器 (MeZO)，采用经典的 ZO-SGD 方法进行就地操作，从而微调 LM，使其具有与推理相同的内存占用。我们用理论见解支持我们的经验发现，强调充分的预训练和任务提示如何使 MeZO 能够微调大型模型，尽管经典的 ZO 分析表明并非如此。在我们方法的核心，我们提出了一个完全“变形”的网络版本，用于人类网格恢复。这个网络，HMR 2.0，推进了最先进的技术，并展示了分析过去难以从单个图像重建的异常姿势的能力。标题：4D 中的人类：用变形金刚重建和跟踪人类。

2023-06-20 15:25:41 1033

原创每日学术速递6.3

我们引入了一种名为 RAPHAEL 的文本条件图像扩散模型，以生成高度艺术化的图像，这些图像准确地描绘了文本提示，包含多个名词、形容词和动词。为了在图像生成方面实现强大的性能，我们提出了一个高效的映射网络，将 LLM 建立在现成的文本到图像生成模型上。除了新颖的图像生成，我们的模型还能够从预先指定的数据集中检索图像，并在推理时决定是检索还是生成。它可以处理图像和文本输入，并生成检索到的图像、生成的图像和生成的文本——在多个测量上下文依赖性的文本到图像任务中，它的性能优于基于非 LLM 的生成模型。

2023-06-04 12:42:17 1300 1

原创每日学术速递6.2

标题：BiomedGPT：用于视觉、语言和多模态任务的统一通用生物医学生成预训练转换器作者：Kai Zhang, Jun Yu, Zhiling Yan, Yixin Liu, Eashan Adhikarla, Sunyang Fu, Xun Chen, Chen Chen, Yuyin Zhou, Xiang Li, Lifang He, Brian D. Davison, Quanzheng Li, Yong Chen, Hongfang Liu, Lichao Sun。

2023-06-04 12:38:17 1138

原创每日学术速递6.1

当与下游图像生成模型相结合时，LayoutGPT 的性能优于文本到图像模型/系统 20-40%，并且在设计视觉布局的数字和空间正确性方面实现了与人类用户相当的性能。虽然语言和视觉依赖于相似的概念表示，但当前的编码模型通常是根据大脑对每种模式的独立反应进行训练和测试的。我们发现，根据大脑对一种模式的反应训练的编码模型可以成功预测大脑对另一种模式的反应，特别是在代表概念意义的皮层区域。比较使用来自多模态和单模态变换器的表示训练的编码模型，我们发现多模态变换器在语言和视觉中学习更多一致的概念表示。

2023-06-04 12:36:40 830

原创每日学术速递5.31

视我们介绍 Voyager，它是 Minecraft 中第一个由 LLM 驱动的具身终身学习代理，它可以在没有人为干预的情况下不断探索世界，获得多样化的技能，并做出新的发现。Voyager 由三个关键组件组成：1) 一个最大化探索的自动课程，2) 一个不断增长的可执行代码技能库，用于存储和检索复杂的行为，以及 3) 一个新的迭代提示机制，它结合了环境反馈、执行错误，和程序改进的自我验证。Voyager 开发的技能在时间上是可扩展的、可解释的和组合的，这可以迅速复合智能体的能力并减轻灾难性遗忘。

2023-06-04 12:34:46 1015

原创每日学术速递5.30

在本文中，我们提出了一种有效且高效的两阶段框架，通过利用 Transformer 注意力和基于梯度下降的优化之间的双重形式来提升 LLM 中的 ICL。在本文中，我们对模仿 TAMP 所需的设计决策进行了全面研究，并证明 OPTIMUS 可以解决各种具有挑战性的基于视觉的操作任务，其中包含 70 多种不同的对象，包括远距离拾取和放置任务, 对货架和铰接物体的操纵，达到 70% 到 80% 的成功率。总的来说，我们的方法在映射方面比最先进的场景坐标回归快 300 倍，同时保持相同的精度。

2023-06-04 12:33:40 1108

原创每日学术速递5.29

D 代表扩散），这是一种 LM 引导的扩散模型，它可以生成最先进质量的音乐音频，同时减少 95.7% 或 99.6% 的前向传递MusicLM，分别用于采样 10 秒或 30 秒的音乐。为了生成这样的图像，这些模型必须理解它们被要求生成的对象的语义。通过这样做，我们在 PF-Willow 数据集上获得了与最先进的强监督技术相当的结果，并且显着优于（相对于 SPair-71k 数据集的 20.9%）PF-Willow、CUB-200 上任何现有的弱监督或无监督方法和 SPair-71k 数据集。

2023-06-04 12:32:01 1083

转载微软AI宇宙日益完善！ChatGPT默认用必应搜索，Windows Copilot登场！

此外，Bing 还在扩展其所谓的 Bing 插件，使用 OpenAI 接受的标准，使企业能够更轻松地在其搜索引擎中与消费者互动。”在即将推出的下月预览版中，Windows用户将获得新的侧边栏，不仅可以在其中复制粘贴，还可以要求Windows Copilot重写、总结或解释用户提供的内容。这款新的Windows Copilot将出现在Windows 11的任务栏中，将帮助Windows用户轻松查找并更改设置，无需受到繁琐选项和操作流程的束缚（比如要求机器人“调整一下设置，帮我集中注意力”）。

2023-05-28 13:13:28 635

原创每日学术速递5.28

我们生成的模型，Aligned Language Model with Synthetic Training dataset (ALMoST)，优于开源模型，包括 Alpaca、Dolly 和 OpenAssistant，这些模型是根据 InstructGPT 或人工注释指令的输出进行训练的。在本文中，我们提出了一种改进语言响应的补充方法，其中多个语言模型实例在多轮中提出并辩论其各自的响应和推理过程，以得出共同的最终答案。我们的方法可以直接应用于现有的黑盒模型，并对我们调查的所有任务使用相同的程序和提示。

2023-05-28 13:09:12 1889

原创每日学术速递5.27

我们最好的模型系列，我们命名为 Guanaco，在 Vicuna 基准测试中优于所有以前公开发布的模型，达到 ChatGPT 性能水平的 99.3%，同时只需要在单个 GPU 上进行 24 小时的微调。QLoRA 引入了多项创新，以在不牺牲性能的情况下节省内存：(a) 4 位 NormalFloat (NF4)，一种新的数据类型，理论上是正态分布权重的最佳信息 (b) 双量化，通过量化减少平均内存占用量化常数，以及 (c) 分页优化器来管理内存峰值。标题：QLoRA：量化 LLM 的高效微调。

2023-05-28 13:07:30 1392

原创每日学术速递5.26

然而，在计算机视觉领域，尽管有众多强大的视觉基础模型（VFM）可用，但它们仍然局限于预定义形式的任务，难以匹配 LLM 的开放式任务能力。大量实验表明，所提出的 VisionLLM 可以通过语言指令实现不同级别的任务定制，从细粒度的对象级到粗粒度的任务级定制，都取得了良好的效果。值得注意的是，使用基于通用 LLM 的框架，我们的模型可以在 COCO 上实现超过 60% 的 mAP，与检测特定模型相当。然而，现有的文本到 3D 生成方法仅限于生成具有简单几何形状和缺乏真实感的梦幻风格的 3D 对象。

2023-05-28 13:07:11 2084

原创每日学术速递5.25

我们提出了可组合扩散 (CoDi)，这是一种新颖的生成模型，能够从输入模态的任意组合生成输出模态的任意组合，例如语言、图像、视频或音频。CoDi 采用了一种新颖的可组合生成策略，该策略涉及通过在扩散过程中桥接对齐来构建共享的多模态空间，从而能够同步生成相互交织的模态，例如时间对齐的视频和音频。具体来说，我们首先使用姿势条件扩散模型同时为穿着衣服的人的正面和背面生成逼真的法线贴图，称为双法线贴图。与现有的图像合成方法不同，我们的工作解决了同时合成与输入场景结构和提示对齐的几何和纹理的挑战。

2023-05-28 13:04:31 1766

原创每日学术速递5.24

在本文中，我们提出了使用极小极大优化 (DoReMi) 进行域重加权，它首先使用域上的组分布鲁棒优化 (Group DRO) 训练一个小型代理模型，以在不知道下游任务的情况下生成域权重（混合比例）。与使用 The Pile 的默认域权重训练的基线模型相比，DoReMi 将平均少镜头下游准确度提高了 6.5%，并以减少 2.6 倍的训练步骤达到基线准确度。我们证明 BIMT 为许多简单任务发现了有用的模块化神经网络，揭示了符号公式中的组成结构、可解释的决策边界和分类特征，以及算法数据集中的数学结构。

2023-05-28 13:02:44 1219

ML Visuals 11.11深度学习框架画图模板

空空如也