自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(264)
  • 资源 (1)
  • 收藏
  • 关注

原创 CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

我们提出了一种用于 3D 点云分析的非参数网络 Point-NN,它由纯不可学习的组件组成:最远点采样 (FPS)、k 最近邻 (k-NN) 和池化操作,具有三角函数.令人惊讶的是,它在各种 3D 任务上表现良好,不需要参数或训练,甚至超过了现有的完全训练模型。如图5所示,在Point-NN的顶部,我们首先替使用一个传统的可学习的分类头替代点存储库(上图A位置),这个轻量级的版本在ModelNet40上就实现了90.3%的分类准确率,只有0.3M的参数。通过标记,可以将视为3D训练集的编码类别知识。

2023-04-06 10:56:36 3299

原创 深度学习实战(二):AlexNet实现花图像分类

深度学习实战(二):AlexNet实现花分类1. 数据集介绍2. AlexNet网络介绍3. model.py实现4. train.py实现4.1 相关包的加载4.2 数据预处理4.3 加载训练集4.4 加载验证集4.5 训练网络与验证网络4.6 完整代码4. Bug解决5. predict.py实现AlexNet在我之前的博客中已经做过详解,详情见:https://blog.csdn.net/muye_IT/article/details/123602605?spm=1001.2014.3001.5

2022-04-02 09:00:00 9518 11

原创 每日学术速递8.11

我们介绍了 ReXTime,这是一个基准测试,旨在严格测试 AI 模型在视频事件中执行时间推理的能力。具体来说,ReXTime专注于跨时间推理,即当问题及其相应的答案出现在不同的视频片段中时,可以像人类一样理解。这种推理形式需要对视频片段之间的因果关系有深入的理解,甚至对前沿的多模态大型语言模型也提出了重大挑战。为了促进这种评估,我们开发了一个用于生成时间推理问答对的自动化管道,大大减少了对劳动密集型手动注释的需求。

2024-08-11 20:16:59 363 1

原创 每日学术速递8.10

模型反转和成员推断攻击旨在重建和验证模型训练所依据的数据。但是,他们不能保证找到所有训练样本,因为他们不知道训练集的大小。在本文中,我们引入了一项新任务:数据集大小恢复,旨在直接根据模型的权重确定用于训练模型的样本数量。然后,我们提出了 DSiRe,这是一种用于恢复用于微调模型的图像数量的方法,在微调使用 LoRA 的常见情况下。我们发现 LoRA 矩阵的范数和频谱都与微调数据集大小密切相关;我们利用这一发现提出了一种简单而有效的预测算法。

2024-08-11 20:16:04 315

原创 每日学术速递8.8

计算未经修剪的长视频中的重复动作是一项具有挑战性的任务,具有许多应用,例如康复。最先进的方法通过首先从采样帧生成时间自相似矩阵(TSM),然后将矩阵馈送到预测器网络来预测动作计数。然而,自相似矩阵并不是网络的最佳输入,因为它从逐帧嵌入中丢弃了太多信息。因此,我们重新思考如何利用 TSM 来计算重复动作,并提出一个学习嵌入并以全时间分辨率预测动作开始概率的框架。然后根据动作开始概率推断重复动作的数量。

2024-08-09 13:11:55 773

原创 每日学术速递8.7

现有的深度学习方法忽略了在复杂场景中存在的语义分割中至关重要的语义线索,包括杂乱的背景和半透明物体等。为了应对这些挑战,我们提出了一种特征放大网络(FANet)作为融合语义信息的骨干网络在多阶段使用新颖的特征增强模块。为了实现这一目标,我们提出了一种自适应特征增强(AFE)模块,它以并行方式受益于空间上下文模块(SCM)和特征细化模块(FRM)。SCM 旨在利用更大的内核杠杆来增加感受野,以处理场景中的尺度变化。而我们新颖的 FRM 负责生成语义线索,可以捕获低频和高频区域,以实现更好的分割任务。

2024-08-09 13:11:14 694

原创 每日学术速递8.6-1

视我们提出了一种新颖的方法,旨在解决单图像深度估计任务中具有挑战性的非分布数据所带来的复杂性。从由于不存在不利因素而促进深度预测的图像开始,我们系统地生成新的、用户定义的场景,并具有全面的挑战和相关的深度信息。这是通过利用具有深度感知控制的尖端文本到图像扩散模型来实现的,该模型以根据文本提示合成高质量图像内容而闻名,同时保留生成图像和源图像之间 3D 结构的一致性。任何单目深度网络的后续微调都是通过自蒸馏协议进行的,该协议考虑了使用我们的策略生成的图像以及它自己对简单、没有挑战性的场景的深度预测。

2024-08-06 14:16:45 1023

原创 每日学术速递8.5-3

虽然神经辐射场 (NeRF) 已展现出卓越的品质,但其训练持续时间过长仍然是一个限制。可泛化且基于 MVS 的 NeRF 虽然能够缩短训练时间,但通常会在质量上进行权衡。本文提出了一种称为 BoostMVSNeRFs 的新颖方法,用于提高大规模场景中基于 MVS 的 NeRF 的渲染质量。我们首先确定基于 MVS 的 NeRF 方法的局限性,例如由于输入视图有限而导致视口覆盖范围受限和伪影。然后,我们通过提出一种在体渲染期间选择和组合多个成本体的新方法来解决这些限制。

2024-08-06 14:15:27 911

原创 每日学术速递8.5-2

假设所有类别的训练样本同时可用,深度卷积神经网络在医学图像分类方面取得了重大突破。然而,在现实的医疗场景中,人们普遍需要不断学习新的疾病,从而催生了医学领域的新兴领域——类增量学习(CIL)。通常,CIL 在接受新课程训练时会遭受灾难性遗忘。这种现象主要是由新旧类别之间的不平衡引起的,并且随着不平衡的医疗数据集变得更加具有挑战性。在这项工作中,我们引入了两种简单而有效的插件方法来减轻不平衡的不利影响。首先,我们提出了 CIL 平衡分类损失,以通过 logit 调整来减轻分类器对多数类别的偏差。

2024-08-06 14:13:49 584

原创 DBMS 与 RDBMS

数据库管理系统 (DBMS) 允许用户存储、检索和操作数据库中的数据。DBMS 通常提供使用户能够创建、更新和删除数据库中的数据的工具。此外,DBMS 可以提供用于管理数据库的工具,例如创建和删除表和索引以及管理用户对数据库的访问。它还包括数据安全性、数据完整性和数据恢复功能。

2024-08-05 10:32:31 8573

原创 每日学术速递8.5—1

我们提出了稳定视频 4D (SV4D),这是一种用于多帧和多视图一致动态 3D 内容生成的潜在视频扩散模型。与之前依赖单独训练的生成模型进行视频生成和新视图合成的方法不同,我们设计了一个统一的扩散模型来生成动态 3D 对象的新视图视频。具体来说,给定单目参考视频,SV4D 为每个视频帧生成时间一致的新颖视图。然后,我们使用生成的新颖视图视频来有效地优化隐式 4D 表示(动态 NeRF),而无需在大多数先前的工作中使用繁琐的基于 SDS 的优化。

2024-08-05 00:06:32 1062

原创 人工智能与大数据的融合:驱动未来的力量

人工智能:人工智能是计算机科学的一个分支,旨在开发能够模拟和执行人类智能行为的系统和算法。AI技术包括机器学习、深度学习、自然语言处理、计算机视觉等,通过对大量数据的训练,AI系统能够自动进行数据分析、模式识别和预测。大数据:大数据指的是那些在体量、速度和多样性上都超出传统数据处理能力的数据集合。大数据技术包括数据采集、存储、处理和分析,涉及的工具和平台有Hadoop、Spark、NoSQL数据库等。大数据的价值在于通过对大量数据的分析,挖掘出隐藏的信息和知识,从而为决策提供支持。

2024-08-04 10:06:47 1577

原创 每日学术速递8.4

针对对抗性示例评估多模态模型的鲁棒性是确保用户安全的一个重要方面。我们对预处理的输入图像进行 L0 范数扰动攻击。我们在黑盒设置中针对四个多模态模型和两个单模态 DNN 启动它们,同时考虑了目标和非目标错误分类。我们的攻击目标是不到 0.04% 的受扰动图像区域,并集成受扰像素的不同空间定位:稀疏定位和以不同连续形状(行、列、对角线和补丁)排列的像素。据我们所知,我们是第一个评估三种最先进的多模态模型(ALIGN、AltCLIP、GroupViT)针对不同稀疏和连续像素分布扰动的鲁棒性的人。

2024-08-04 10:06:27 862

原创 自建数据库VS云数据库

自建数据库是指企业或个人在自己的服务器上安装、配置和维护数据库管理系统(DBMS)。这种方式需要自己负责硬件采购、网络配置、软件安装及日常运维工作。自建数据库通常要求企业具备一定的IT基础设施和技术能力,不仅需要购买和配置服务器,还需要进行网络环境的搭建、数据库软件的安装和配置。为了确保数据库系统的高效运行,企业还需要定期进行硬件和软件的维护与升级,以及数据的备份与恢复工作。所有这些工作都需要专业的技术人员来执行和管理。云数据库是由云服务提供商(如腾讯云、阿里云、AWS等)提供的数据库服务。

2024-08-03 10:44:18 1115

原创 每日学术速递8.3

当用户的输入指令不明确时,基于文本的编辑扩散模型表现出有限的性能。为了解决这个问题,我们建议 Specify ANd Edit (SANE),用于基于扩散的编辑系统的零样本推理管道。我们使用大型语言模型(LLM )将输入指令分解为特定指令,即应用到输入图像的明确定义的干预措施以满足用户的请求。我们受益于LLM-得益于专门为该任务设计的新颖的去噪指导策略,沿着原始指令导出指令。我们使用三个基线和两个数据集进行的实验证明了 SANE 在所有设置中的优势。

2024-08-03 10:43:52 385

原创 见证中国数据库的崛起:从追赶到引领的壮丽征程《四》

【纪录片】在数字化潮流席卷全球的今天,数据库作为IT技术领域的“活化石”,已成为数字经济时代不可或缺的基础设施。那么,中国的数据库技术发展经历了怎样的历程?我们是如何在信息技术的洪流中逐步建立起自己的数据管理帝国的呢?腾讯云将邀请亲历数据库技术在中国从落地生根到蓬勃发展的技术专家们,与大家共同回顾中国数据库发展史上的重要时刻。

2024-08-03 09:15:00 728

原创 每日学术速递8.2

在适应过程中,我们从以前的中间模型获得的主动选择的锚点的特征中学习,以便视觉持久引导的适应可以促进特征分布对齐和主动样本利用。模拟结果表明,我们的 QNL-Net 在利用更少的量子位的同时,在量子分类器中的二值图像分类中实现了最先进的准确度水平。为了应对这些挑战,论文提出了一种名为"Learn from the Learnt" (LFTL)的新范式,通过对比采样和视觉持久性引导的适应方法,利用从源预训练模型和主动迭代模型中学到的知识,以最小的额外开销实现领域适应。

2024-08-02 10:12:05 1031

原创 分享丨CAAI名誉理事长李德毅院士:认知的形式化

人类认知的整个活动,就是如何解释、解决人类在生存和繁衍过程中所遇到的现实问题。通过分析古今中外著名的认知案例,概括人类认知的4种基本模式为记忆驱动的经验模式(OOA)、知识驱动的推理模式(OODA)、联想驱动的创造模式(OOCA)以及假说驱动的发现模式(OOHA),用这4个相对独立的认知模式来完成认知的形式化,OOA和OOCA两个模式是由下而上思维,从物理空间转向认知空间;OODA和OOHA两个模式是由上而下思维,从认知空间转向物理空间。

2024-08-02 10:08:54 410

原创 《常见几大数据库》

【纪录片】在数字化潮流席卷全球的今天,数据库作为IT技术领域的“活化石”,已成为数字经济时代不可或缺的基础设施。那么,中国的数据库技术发展经历了怎样的历程?我们是如何在信息技术的洪流中逐步建立起自己的数据管理帝国的呢?腾讯云将邀请亲历数据库技术在中国从落地生根到蓬勃发展的技术专家们,与大家共同回顾中国数据库发展史上的重要时刻。

2024-08-02 09:56:04 1363

原创 见证中国数据库的崛起:从追赶到引领的壮丽征程《三》

【纪录片】在数字化潮流席卷全球的今天,数据库作为IT技术领域的“活化石”,已成为数字经济时代不可或缺的基础设施。那么,中国的数据库技术发展经历了怎样的历程?我们是如何在信息技术的洪流中逐步建立起自己的数据管理帝国的呢?腾讯云将邀请亲历数据库技术在中国从落地生根到蓬勃发展的技术专家们,与大家共同回顾中国数据库发展史上的重要时刻。

2024-08-02 09:00:00 1088

原创 《数据库技术及其对我国企业发展的重大贡献》

【纪录片】在数字化潮流席卷全球的今天,数据库作为IT技术领域的“活化石”,已成为数字经济时代不可或缺的基础设施。那么,中国的数据库技术发展经历了怎样的历程?我们是如何在信息技术的洪流中逐步建立起自己的数据管理帝国的呢?腾讯云将邀请亲历数据库技术在中国从落地生根到蓬勃发展的技术专家们,与大家共同回顾中国数据库发展史上的重要时刻。

2024-08-01 14:43:12 1009

原创 铁路购票系统中的数据库技术《二》

【纪录片】在数字化潮流席卷全球的今天,数据库作为IT技术领域的“活化石”,已成为数字经济时代不可或缺的基础设施。那么,中国的数据库技术发展经历了怎样的历程?我们是如何在信息技术的洪流中逐步建立起自己的数据管理帝国的呢?腾讯云将邀请亲历数据库技术在中国从落地生根到蓬勃发展的技术专家们,与大家共同回顾中国数据库发展史上的重要时刻。

2024-08-01 07:30:00 870

原创 铁路购票系统中的数据库技术《一》

【纪录片】在数字化潮流席卷全球的今天,数据库作为IT技术领域的“活化石”,已成为数字经济时代不可或缺的基础设施。那么,中国的数据库技术发展经历了怎样的历程?我们是如何在信息技术的洪流中逐步建立起自己的数据管理帝国的呢?腾讯云将邀请亲历数据库技术在中国从落地生根到蓬勃发展的技术专家们,与大家共同回顾中国数据库发展史上的重要时刻。

2024-08-01 07:00:00 2001

原创 见证中国数据库的崛起:从追赶到引领的壮丽征程《二》

【纪录片】在数字化潮流席卷全球的今天,数据库作为IT技术领域的“活化石”,已成为数字经济时代不可或缺的基础设施。那么,中国的数据库技术发展经历了怎样的历程?我们是如何在信息技术的洪流中逐步建立起自己的数据管理帝国的呢?腾讯云将邀请亲历数据库技术在中国从落地生根到蓬勃发展的技术专家们,与大家共同回顾中国数据库发展史上的重要时刻。

2024-08-01 01:27:43 999

原创 见证中国数据库的崛起:从追赶到引领的壮丽征程《一》

【纪录片】中国数据库前世今生在数字化潮流席卷全球的今天,数据库作为IT技术领域的“活化石”,已成为数字经济时代不可或缺的基础设施。那么,中国的数据库技术发展经历了怎样的历程?我们是如何在信息技术的洪流中逐步建立起自己的数据管理帝国的呢?腾讯云将邀请亲历数据库技术在中国从落地生根到蓬勃发展的技术专家们,与大家共同回顾中国数据库发展史上的重要时刻。

2024-08-01 01:25:32 896

原创 每日学术速递2024.03.14

我们设计了一个改进的 Transformer,而不是将人类编写的程序编译成 Transformers,它可以使用基于梯度的优化进行训练,然后自动转换为离散的、人类可读的程序。然而,由于迭代去噪,它们的性能通常会受到缓慢生成的影响。上下文学习 – 使用不同提示配置模型行为的能力 – 已经彻底改变了自然语言处理领域,减轻了对特定任务模型的需求,并为能够协助任何查询的通才模型铺平了道路.相比之下,计算机视觉在很大程度上停留在前一种状态:通常需要专门的解码器和微调协议来执行语义分割和深度估计等密集任务。

2024-03-14 16:11:04 846

原创 每日学术速递6.14

本文的目标是开放词汇对象检测(OVOD) – 建立一个模型,该模型可以检测超出训练中所见类别集的对象,从而使用户能够在推理时指定感兴趣的类别,而无需重新训练模型.我们采用标准的两阶段对象检测器架构,并探索三种指定新类别的方法:通过语言描述、通过图像示例或通过两者的组合。(ii) 我们基于视觉的分类器在之前的工作中表现与基于文本的分类器一样好;我们的目标是通过联合解决方案减轻来自各种来源的这些缺陷:我们利用生成对抗网络 (GAN) 的能力来生成逼真的图像,并使用它们来增强 NeRF 3D 场景重建的真实感。

2023-06-20 16:45:26 982 1

原创 每日学术速递6.13

我们对树高的预测显示出 2.9 m 的平均误差,并且在加利福尼亚州存在的整个树高范围内显示出相对较低的系统偏差。我们的模型成功地估计了高达 50 m 的冠层高度而没有饱和,优于全球模型中现有的冠层高度产品。我们使用的方法允许重建从天底光学机载图像观察到的单个树木的三维结构,这表明即使在存在图像失真的情况下也具有相对稳健的估计和映射能力。然后,我们为标准的、未操纵的网络中发生的类似现象提供证据:特征可视化的处理方式与标准输入的处理方式截然不同,这让人怀疑它们“解释”神经网络如何处理自然图像的能力。

2023-06-20 16:43:55 1070

原创 每日学术速递6.12

在本文中,我们提出了一种在叙述的操作视频中本地化程序活动步骤的方法。在没有任何形式的人工监督的情况下,我们的模型通过匹配三种模式:框架、旁白和步骤描述,学会在时间上将程序文章的步骤置于操作视频中。我们的系统保留了先前方法在建模复杂场景和视图相关效果方面的优势,而且还能够从具有复杂场景动态和不受约束的相机轨迹的长视频中合成照片般逼真的新颖视图。我们展示了对动态场景数据集的最先进方法的显着改进,并将我们的方法应用于具有挑战性相机和物体运动的野外视频,在这些视频中,先前的方法无法产生高质量的渲染。

2023-06-20 16:11:22 1047

原创 每日学术速递6.11

然而,在弱监督学习中,大部分数据都是通过弱噪声源标记的,因此设计有效的增强方法仍然很重要。源内提升将局部性引入基学习器,并通过在粒度变化的错误区域上训练新的基学习器,使每个基学习器能够专注于特定的特征机制。在没有对特定任务数据或注释进行任何额外的微调或监督的情况下,DIFT 能够在识别语义、几何和时间对应方面优于弱监督方法和有竞争力的现成特征。我们引入了一个包含 100,000 个视频指令对的新数据集,用于训练通过手动和半自动管道获取的 Video-ChatGPT,该数据集易于扩展且对标签噪声具有鲁棒性。

2023-06-20 15:44:09 1238

原创 每日学术速递6.10

与之前专注于静态图像理解的视觉 LLM(如 MiniGPT-4 和 LLaVA)不同,Video-LLaMA 主要解决视频理解中的两个挑战:(1)捕捉视觉场景中的时间变化,(2)整合视听信号。在这里,我们介绍了反事实世界建模 (CWM),这是一个构建视觉基础模型的框架:一个统一的、无监督的网络,可以提示执行各种视觉计算。综上所述,我们的结果表明,CWM 是在概念上简单的基础上统一机器视觉的多方面分支的有前途的途径。我们使用以完全无监督的方式生成的离散语音单元,因此我们的框架可用于非书面语言。

2023-06-20 15:41:16 1417

原创 每日学术速递6.9

尽管接受了 11 亿个掩码的训练,但 SAM 的掩码预测质量在许多情况下仍不尽如人意,尤其是在处理具有复杂结构的物体时。在本文中,我们使用细粒度的人类反馈(例如,哪个句子是错误的,哪个子句子是不相关的)作为显式训练信号。我们介绍了细粒度 RLHF,这是一个框架,可以从两个方面细粒度的奖励函数中进行训练和学习:(1)密度,在生成每个片段(例如句子)后提供奖励;此外,我们引入了引导密码生成的概念,我们利用 PassGPT 采样过程来生成匹配任意约束的密码,这是当前基于 GAN 的策略所缺乏的壮举。

2023-06-20 15:38:20 1492

原创 每日学术速递6.7

我们提出了一种称为 NeRO 的基于神经渲染的方法,用于从在未知环境中捕获的多视图图像重建反射物体的几何形状和 BRDF。大量实验表明,我们的方法能够在不知道环境光和物体遮罩的情况下,仅从摆好的 RGB 图像中准确地重建反射物体的几何形状和 BRDF。我们的结果证明了多感官感知的重要性,并揭示了视觉、听觉和触觉在不同的以对象为中心的学习任务中的各自作用。仅使用合成图像,StableRep 学习的表示在大规模数据集上超过了 SimCLR 和 CLIP 使用同一组文本提示和相应的真实图像学习的表示的性能。

2023-06-20 15:34:05 1691

原创 每日学术速递6.8

我们表明,如果 StyleGAN 从潜在的 w 中生成 G(w) ,那么对于每种类型的固有图像,都有一个固定的偏移量 dc ,因此 G(w+dc) 是 G(w) 的那种类型的固有图像。我们的实验表明,确实可以跨模态转移上下文学习能力:我们的模型大大提高了 VL 任务的上下文学习能力,甚至可以显着补偿模型的大小。我们的方法适用于任意刚性物体,即使在视觉纹理基本不存在的情况下也是如此。我们方法的关键是神经对象场,它与姿势图优化过程同时学习,以便将信息稳健地积累到一致的 3D 表示中,同时捕获几何和外观。

2023-06-20 15:33:46 1642

原创 每日学术速递6.5

在这项工作中,我们提出了一种内存高效的零阶优化器 (MeZO),采用经典的 ZO-SGD 方法进行就地操作,从而微调 LM,使其具有与推理相同的内存占用。我们用理论见解支持我们的经验发现,强调充分的预训练和任务提示如何使 MeZO 能够微调大型模型,尽管经典的 ZO 分析表明并非如此。在我们方法的核心,我们提出了一个完全“变形”的网络版本,用于人类网格恢复。这个网络,HMR 2.0,推进了最先进的技术,并展示了分析过去难以从单个图像重建的异常姿势的能力。标题:4D 中的人类:用变形金刚重建和跟踪人类。

2023-06-20 15:25:41 761

原创 每日学术速递6.3

我们引入了一种名为 RAPHAEL 的文本条件图像扩散模型,以生成高度艺术化的图像,这些图像准确地描绘了文本提示,包含多个名词、形容词和动词。为了在图像生成方面实现强大的性能,我们提出了一个高效的映射网络,将 LLM 建立在现成的文本到图像生成模型上。除了新颖的图像生成,我们的模型还能够从预先指定的数据集中检索图像,并在推理时决定是检索还是生成。它可以处理图像和文本输入,并生成检索到的图像、生成的图像和生成的文本——在多个测量上下文依赖性的文本到图像任务中,它的性能优于基于非 LLM 的生成模型。

2023-06-04 12:42:17 1043 1

原创 每日学术速递6.2

标题:BiomedGPT:用于视觉、语言和多模态任务的统一通用生物医学生成预训练转换器作者:Kai Zhang, Jun Yu, Zhiling Yan, Yixin Liu, Eashan Adhikarla, Sunyang Fu, Xun Chen, Chen Chen, Yuyin Zhou, Xiang Li, Lifang He, Brian D. Davison, Quanzheng Li, Yong Chen, Hongfang Liu, Lichao Sun。

2023-06-04 12:38:17 972

原创 每日学术速递6.1

当与下游图像生成模型相结合时,LayoutGPT 的性能优于文本到图像模型/系统 20-40%,并且在设计视觉布局的数字和空间正确性方面实现了与人类用户相当的性能。虽然语言和视觉依赖于相似的概念表示,但当前的编码模型通常是根据大脑对每种模式的独立反应进行训练和测试的。我们发现,根据大脑对一种模式的反应训练的编码模型可以成功预测大脑对另一种模式的反应,特别是在代表概念意义的皮层区域。比较使用来自多模态和单模态变换器的表示训练的编码模型,我们发现多模态变换器在语言和视觉中学习更多一致的概念表示。

2023-06-04 12:36:40 618

原创 每日学术速递5.31

视我们介绍 Voyager,它是 Minecraft 中第一个由 LLM 驱动的具身终身学习代理,它可以在没有人为干预的情况下不断探索世界,获得多样化的技能,并做出新的发现。Voyager 由三个关键组件组成:1) 一个最大化探索的自动课程,2) 一个不断增长的可执行代码技能库,用于存储和检索复杂的行为,以及 3) 一个新的迭代提示机制,它结合了环境反馈、执行错误,和程序改进的自我验证。Voyager 开发的技能在时间上是可扩展的、可解释的和组合的,这可以迅速复合智能体的能力并减轻灾难性遗忘。

2023-06-04 12:34:46 874

原创 每日学术速递5.30

在本文中,我们提出了一种有效且高效的两阶段框架,通过利用 Transformer 注意力和基于梯度下降的优化之间的双重形式来提升 LLM 中的 ICL。在本文中,我们对模仿 TAMP 所需的设计决策进行了全面研究,并证明 OPTIMUS 可以解决各种具有挑战性的基于视觉的操作任务,其中包含 70 多种不同的对象,包括远距离拾取和放置任务, 对货架和铰接物体的操纵,达到 70% 到 80% 的成功率。总的来说,我们的方法在映射方面比最先进的场景坐标回归快 300 倍,同时保持相同的精度。

2023-06-04 12:33:40 900

ML Visuals 11.11深度学习框架画图模板

去年 5 月,github上出现一款名为 ML Visuals 的机器学习画图模板,该项目受到广泛关注,迄今已收获 6.1K Star。ML Visuals 专为解决神经网络画图问题设计。ML Visuals 现在包含了 100 多个可用的自定义图形,使用者可以在任何论文、博客、PPT 中使用这些资源。这份 101 页的模板共包含几个部分:基础组件、架构、机器学习概念、抽象背景、渐变背景、机器学习 & 健康、其他、机器学习系统设计。这套画图模板首先提供了多种基础组件,比如表示过程、操作或转换的圆角矩形,表示神经元或任意操作的小圆圈,表示向量的一排小方块以及表示多维数组的网格等。 PPT更新至2021.11.11,有215页.

2022-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除