自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

stay hungry, stay foolish.

原创【LMM 011】MiniGPT-5：通过 Generative Vokens 进行交错视觉语言生成的多模态大模型

引入了一种创新的交错视觉语言生成技术，该技术以generative vokens为基础，协调图像和文本输出。采用独特的两阶段训练策略，侧重于无描述多模态生成。

2024-01-06 20:12:35 1348

原创【LMM 010】MiniGPT-v2：使用独特的标识符实现视觉语言多任务学习的统一的多模态大模型

通过简单的多模态指令有效地完成各种视觉语言任务。

2024-01-05 01:15:21 1349

原创【LMM 009】MiniGPT-4：使用 Vicuna 增强视觉语言理解能力的多模态大模型

将视觉特征与先进的大型语言模型进行对齐，可以拥有 GPT-4 所展示的众多先进的多模态能力。

2024-01-05 01:10:24 1316

原创【LMM 008】Instruction Tuning with GPT-4

首次尝试使用 GPT-4 生成用于 LLM 微调的指令遵循数据。对经过指令微调的 LLaMA 模型进行实验，GPT-4 生成的 52K 中英文指令遵循数据在新任务上的零样本性能优于之前最先进模型生成的指令遵循数据。

2024-01-03 00:34:59 1111

原创【LMM 007】Video-LLaVA：通过投影前对齐以学习联合视觉表征的视频多模态大模型

Video-LLaVA，它可以从图像和视频的混合数据集中学习，并相互促进。Video-LLaVA 在 5 个图像问题解答数据集和 4 个图像基准工具包的 9 个图像基准中取得了优异的性能。

2024-01-02 03:15:00 1423

原创【LMM 006】LLaVA-Plus：可以学习如何使用工具的多模态Agent

LLaVA-Plus 维护着一个技能库，其中包含大量经过视觉和视觉语言预训练的模型（工具），并能根据用户的多模态输入激活相关工具，在运行过程中组成执行结果，以完成许多现实世界的任务。

2024-01-02 02:45:00 1909

原创【LMM 005】LLaVA-Interactive：集图像聊天，分割，生成和编辑三种多模态技能于一体的Demo

LLaVA-Interactive 结合了预建AI模型的三种多模态技能，无需额外的模型训练：视觉聊天，图像分割以及图像生成和编辑。

2024-01-02 02:30:00 1024

原创【LMM 004】LLaVA-RLHF：用事实增强的 RLHF 对齐大型多模态模型

为了解决多模态未对齐问题，将文本领域的人类反馈强化学习（RLHF）应用到视觉语言对齐任务中，提出了一种名为事实增强的算法，提高了模型性能。

2024-01-01 22:10:15 1203

原创【LMM 003】LLaVA-Med：生物医学领域的垂直类大型多模态模型

LLaVA-Med 具备出色的多模态会话能力，可以按照开放指令协助回答生物医学图像问题。

2024-01-01 22:00:44 1175

原创【LMM 002】LLaVA-1.5：大型语言和视觉助手

对 LLaVA 进行了简单的修改，即使用 CLIP-ViT-L-336px 与 MLP 投影，并添加了以学术任务为导向的 VQA 数据和简单的响应格式提示，从而建立了更强大的基线，在 11 项基准测试中达到了最先进的水平。

2024-01-01 21:55:46 1179

原创【LMM 001】LLaVA：大型语言和视觉助手

端到端训练的大型多模态模型 LLaVA，它将视觉编码器和 LLM 连接起来，用于通用的视觉和语言理解。

2024-01-01 21:50:24 1633

原创【具身智能评估10】ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation

一个交互式多模态物理仿真平台。TDW 可在丰富的3D环境中模拟高保真感官数据以及移动智能体（mobile agent）和物体之间的物理交互。

2023-12-19 05:00:00 1104

原创【具身智能评估9】Open X-Embodiment: Robotic Learning Datasets and RT-X Models

我们汇集了 21 家机构合作收集的 22 种不同机器人的数据集，展示了 527 种技能（160266 项任务）

2023-12-19 04:45:00 1207 2

原创【具身智能评估8】BEHAVIOR-1K: A Benchmark for Embodied AI with 1,000 Everyday Activities and ...

1000 种日常活动，50 个场景，5000 多个标注了丰富物理和语义属性的物体。OMNIGIBSON，一个新的模拟环境，通过对刚体、可变形体和液体进行逼真的物理模拟和渲染来支持这些活动。

2023-12-19 04:30:00 2402

原创【具身智能评估7】ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

一个程序化生成具身人工智能环境的框架。

2023-12-19 04:15:00 1707

原创【具身智能评估6】Habitat 3.0: A Co-Habitat for Humans, Avatars and Robots

一个用于研究家庭环境中人机协作（collaborative human-robot）任务的模拟平台。

2023-12-19 04:00:00 1181

原创【具身智能评估5】ALFWorld: Aligning Text and Embodied Environments for Interactive Learning

ALFWorld 是一种模拟器，能让智能体在 TextWorld 中学习基于文本的抽象策略，然后在丰富的可视化环境中执行 ALFRED 基准中的目标。

2023-12-19 03:45:00 2255

原创【具身智能评估4】ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks

这是一个学习从自然语言指令和自我中心（egocentric）视觉到家庭任务行动序列映射的基准。

2023-12-19 03:30:00 1181

原创【具身智能评估3】具身视觉语言规划（EVLP）度量标准汇总

目前在 EVLP 中使用的度量标准可分为 5 类，分别从不同角度测量智能体性能。

2023-12-17 23:12:01 127

原创【具身智能评估2】具身视觉语言规划（EVLP）数据集基准汇总

解决 EVLP 任务通常需要使用仿真环境和数据集。仿真平台和数据集有助于复现和评估具身智能系统。

2023-11-19 15:03:45 669

原创【具身智能评估1】具身视觉语言规划（EVLP）仿真环境汇总

解决 EVLP 任务通常需要使用仿真环境和数据集。仿真平台和数据集有助于复现和评估具身智能系统。

2023-11-18 13:03:24 623

原创【Agent 001】MemGPT: Towards LLMs as Operating Systems

MemGPT 能智能地管理 Agent 不同的记忆层，以便在 LLM 的有限上下文窗口内有效地提供扩展上下文，并利用中断来管理自身与用户之间的控制流。

2023-11-05 12:16:16 827 1

原创【EAI 003】RT-1: Robotics Transformer for Real-World Control at Scale

通用机器人模型成功的关键之一在于开放式的任务无关的训练，以及能够吸收所有不同机器人数据的大容量架构。本文提出了 Robotics Transformer 模型，其具有良好的可扩展模型特性。

2023-10-23 01:17:42 518 3

原创【EAI 002】A Survey of Embodied AI: From Simulators to Research Tasks

具身人工智能领域从模拟器到研究的综述。提出的七大特点评估目前的九种具身人工智能模拟器，本文旨在了解这些模拟器在具身人工智能研究中的应用及其局限性。最后，本文概述了具身人工智能的三大研究任务--视觉探索，视觉导航和具身问答（QA），涵盖了最先进的方法、评估指标和数据集。最后，本文将根据对该领域的综述所获得的新见解，为选择任务模拟器提出建议，并为该领域的未来发展方向提出建议。

2023-10-21 13:14:05 723

原创【EAI 001】PaLM-E: 用于具身智能相关任务的多模态语言模型

提出了具身语言模型，将真实世界的连续的传感器模态直接纳入语言模型，从而建立词语与感知之间的联系。模型的输入是多模态句子，这些句子交错了视觉、连续状态估计和文本输入编码。

2023-10-15 21:23:35 1406

原创【LLM微调范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation

在本文中，我们提出了前缀调优（prefix-tuning）技术，这是自然语言生成任务中微调技术的轻量级替代方案，它可以冻结语言模型参数，但会优化一个小的连续任务特定向量（称为前缀）。

2023-10-15 21:12:10 1615

原创千脑智能理论会是未来指引智能机器设计的理论基石吗？

未来的人工智能将以与现在不同的原理为基础，新的原理更加接近模拟人类大脑。真正的智能机器、通用人工智能将像大脑新皮质一样，使用类似于地图的参考系来学习世界模型。

2023-09-24 23:20:19 251

原创吴恩达ChatGPT《Finetuning Large Language Models》笔记

介绍了什么是微调，微调的作用和重要性，从数据准备到训练再到评估模型的步骤。

2023-09-17 21:28:49 2026 11

原创吴恩达ChatGPT《LangChain Chat with Your Data》笔记

文档加载器，RAG，文档分割器，向量存储，语义检索，MMR，压缩，问答检索器，记忆能力。

2023-07-23 00:53:09 1609

原创吴恩达AIGC《How Diffusion Models Work》笔记

扩散模型，去噪，采样，DDPM，DDIM，U-Net，上下文融入模型。

2023-07-02 22:36:18 1876 12

原创吴恩达ChatGPT《LangChain for LLM Application Development》笔记

提示词模板，解析器，模型记忆，思维推理链，模型评估，模型代理。

2023-07-02 12:54:04 3603 1

原创吴恩达ChatGPT《Building Systems with the ChatGPT API》笔记

使用ChatGPT API搭建一个端到端的客户问答机器人

2023-06-22 22:48:22 5498 2

原创吴恩达ChatGPT《Prompt Engineering》笔记

吴恩达ChatGPT提示工程课程笔记

2023-06-22 13:06:52 3181 2

原创【MSRA文档智能综述论文】Document AI: Benchmarks, Models and Applications

深度学习技术的普及极大地推动了文档智能领域的发展，以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务都有显著的性能提升。

2022-10-23 11:05:09 1794

原创【CV】RepMLP：将卷积重新参数化为用于图像识别的全连接层

论文年份：2022，论文被引：24（2022/05/21）

2022-05-21 15:51:05 2105

原创【CV】RepVGG：通过结构重参数化实现训练和推理解耦的类 VGG 架构

论文年份：2021，论文被引：152（2022/05/21）

2022-05-21 14:47:35 1731

原创【CV】ConvNeXt：A ConvNet for the 2020s

论文年份：2022，论文被引：58（2022/05/21）

2022-05-21 09:32:17 901

原创【CV】Reg2Net：一种用于计算机视觉任务的多尺度骨干架构

论文年份：2021，论文被引：844（2022/05/19）

2022-05-19 23:32:24 1590

原创【CV】高被引行人重识别（Person Re-ID）综述论文

论文年份：TPAMI 2021，论文被引：448（2022/05/17）

2022-05-17 17:46:34 3797

原创【CV】可变形卷积：用于目标检测和语义分割的卷积层

论文年份：ICCV 2017，论文被引：2791（2022/05/15）

2022-05-15 20:46:17 2998

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除