自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1463)
  • 收藏
  • 关注

转载 多模态大模型新基准 | GPT-4o准确率仅65.5%,模型最易犯感知错误

王家豪 投稿自 凹非寺 量子位 | 公众号 QbitAIGPT-4o再次掀起多模态大模型的浪潮。如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域带来革命性进展。因而,构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。来自上海AI Lab、香港大学、上海交大、浙江大学等多家机构提出了 MMT-Bench。这是一个全方位的多模...

2024-06-13 18:05:14 16

转载 豆瓣9.2分 | 《GPT图解:大模型是怎样构建的》新书赠送!

正文开始前,先派送福利扫码备注【送书】进群,参与免费寄送【GPT图解:大模型是怎样构建的】纸质图书抽奖活动,活动截止日期2024-06-16晚上10点。也可自行购买,戳如下,专属 5折优惠!京东专属链接:在最新的中关村开源生态论坛暨大模型智能应用技术大会上,2023年中国开发者影响力年度榜单揭晓了!人民邮电出版社异步图书荣获“年度出版社”奖!异步出品的《GPT图解:大模型是怎样构建的》荣获...

2024-06-13 18:05:14 24

转载 UniAnimate:舞蹈生成!支持合成一分钟高清视频 | 华科等提出

本文编辑来源 机器之心人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演化,跳舞视频生成任务取得了前所未有的进展,并展示了广泛的应用潜力。现有的方法可以大致分为两组。第一组通常基于生成对抗网络(GAN),其利用中间的姿势引导表示来扭曲参考外观,并通过之前扭曲的目标生成合理的...

2024-06-12 11:46:02 29

原创 最新200篇!2024年5月 diffusion 生成扩散模型论文汇总

001 (2024-06-5) Non-stationary Spatio-Temporal Modeling Using the Stochastic Advection-Diffusion Equation https://arxiv.org/pdf/2406.03400.pdf002 (2024-06-5) Generative Diffusion Models for Fast...

2024-06-12 11:46:02 793

转载 SketchDream:基于线稿的3D生成编辑方法

本文来源 机器之心本论文作者是中国科学院计算技术研究所高林老师及其博士生刘锋林,香港城市大学傅红波老师,卡迪夫大学来煜坤老师。该项研究工作受到国家自然科学基金委、北京市自然科学基金委、北京市科学技术委员会的资助,由信息高铁智算算力网平台提供算力支持。基于人工智能的数字内容生成,即 AIGC 在二维图像生成领域取得了很大的成功,但在三维生成方面仍存在挑战。智能化生成三维模型在 AR/VR、工业设计、...

2024-06-04 17:25:41 33

转载 新书 | 《生成式AI入门与AWS实战》,写给程序员看的大模型入门实战书!

正文开始前,先派送福利扫码备注【送书】进群,参与免费寄送【生成式AI入门与AWS实战】纸质图书抽奖活动,活动截止日期2024-06-09晚上10点。也可自行购买,戳如下,专属 5折优惠!京东专属链接:各位,小异带来一本重磅新书:O'Reilly动物书《生成式AI入门与AWS实战》!这本书美亚4.6星,得到了贾扬清、王小川、周明等数十名国内外大咖鼎力推荐!《生成式AI入门与AWS实战》你的第...

2024-06-04 17:25:41 55

转载 ID-Animator:人物照片+文字 = 定制化视频 | 腾讯光子开源

本文编辑来源 机器之心本论文作者主要来自于腾讯光子工作室团队,一作何炫华 (hexuanhua@mail.ustc.edu.cn) 是中国科技大学在读的研究生,他的研究方向为图像 / 视频生成模型与底层视觉;作者刘权德 (qdliu0226@gmail.com)、钱湦钜 (thesouthfrog@gmail.com),目前就职于腾讯光子工作室,博士均毕业于香港中文大学。近年来,定制化的人物生...

2024-05-24 12:15:55 76

转载 Transformer手撕BP,当场拿了offer

最近面试大厂算法&开发岗,不仅让手写Transformer代码,甚至手撕BP算法,面试八股也是标配,总结了一下面试官必问的10个问题:解释多头注意力机制;简述常见注意力机制;介绍Transformer的QKV;Transformer位置编码的优缺点;详述Encoder及Decoder模块;Transformer残差结构及意义;解释Transformer并行性;Transformer与CNN...

2024-05-24 12:15:55 54

转载 CogVLM2:最新开源多模态SOTA!19B模型比肩GPT-4v,16G显存就能跑

本文来源 梦晨 发自 凹非寺 量子位 QbitAI开源多模态SOTA模型再易主!Hugging Face开发者大使刚刚把王冠交给了CogVLM2,来自大模型创业公司智谱AI。CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro,还不是超过一点,是大幅领先。网友闻讯而来,发现ChatGPT新绝技之“AI挑瓜”,我们开源届也不缺了。更复杂的学术图表,它也能理解并给出详细解释。C...

2024-05-22 18:36:45 248 1

转载 ConsistentID:针对定制化人脸需求!中山大学提出多模态精细化生成方法!

本文来源 皓楠投稿自 凹非寺 量子位 QbitAI只需上传一张照片,就能瞬间变换身份,获得高精度个人写真!或是科幻电影中的超级英雄,或是穿越时空的复古角色……李飞飞在家做饭的样子有了,还有让斯嘉丽一键带圣诞帽。除此之外,杨幂+小兰两位人脸融合在一起会是什么样子?中山大学、联想的研究团队推出了ConsistentID,可在细粒度多模态面部提示下,仅利用单张参考图像生成多样的肖像,且保持五官的...

2024-05-22 18:36:45 51

转载 中国特色!针对中文的DiT架构!腾讯混元文生图大模型开源

本文转自 机器之心编辑部中文 AI 社区迎来了一个好消息:与 Sora 同架构的开源文生图大模型来了!5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。官网地址:https://dit.hunyuan.tencent.com/GitHub 项...

2024-05-16 18:26:23 73

转载 第一本给程序员看的AI Agent图书!

正文开始前,先派送福利扫码备注【送书】进群,参与免费寄送【动手做AI Agent】纸质图书抽奖活动,活动截止日期2024-05-19晚上10点。也可自行购买,戳如下,专属 5折优惠!京东专属链接:AI Agent火爆到什么程度?OpenAI创始人奥特曼预测,未来各行各业,每一个人都可以拥有一个AI Agent;比尔·盖茨在2023年层预言:AI Agent将彻底改变人机交互方式,并颠覆整个...

2024-05-16 18:26:23 66

转载 性能超Transformer!Mamba系列论文整理分享

Mamba01Mamba作为一种新型的选择性状态空间模型方法,在语言建模方面可以媲美Transformer,并且目前已经有了很多结合Mamba的研究成果。那么,今天我就整理了Mamba经典论文+Mamba大模型/遥感/医学/综述等论文合集。论文合集获取方式如下:添加课程回复"Mamba"01.Mamba: Linear-Time Sequence Modeling with Selective S...

2024-05-15 13:01:39 100

转载 GPT-4o:横跨视听说交互能力!免费开放!

梦晨 克雷西 发自 凹非寺 量子位 | 公众号 QbitAIOpenAI最新旗舰大模型GPT-4o!!!不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟!就像在打一个视频电话!现场直播的效果更是炸裂:它能感受到你的呼吸节奏,也能用比以前更丰富的语气实时回复,甚至可以做到随时打断。GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本...

2024-05-15 13:01:39 39

原创 CVPR 2024 | idea这不就有了!扩散diffusion模型100+篇论文、40+研究方向(清单版)...

30个方向130篇!CVPR 2023最全AIGC论文30个方向!ICCV 2023 最全AIGC论文25个方向!CVPR 2022 GAN论文汇总35个方向!ICCV 2021 最全GAN论文汇总超110篇!CVPR 2021 最全GAN论文梳理超100篇!CVPR 2020 最全GAN论文梳理最新视觉顶会CVPR 2024会议,涌现出大量基于生成式AIGC的CV论文,尤其扩散模型dif...

2024-05-09 11:59:44 1169

转载 StoryDiffusion:让多图漫画和长视频更连贯!南开、字节开源

本文来源 机器之心 编辑:杨文、亚鹂有了 StoryDiffusion,更加一致性的图像和视频生成得到了保障。两天前,图灵奖得主 Yann LeCun 转载了「自己登上月球去探索」的长篇漫画,引起了网友的热议。其实,产出这些漫画的研究出自南开大学、字节跳动等机构。在《StoryDiffusion:Consistent Self-Attention for long-range image an...

2024-05-08 13:05:41 202

转载 MetaCLIP:揭开CLIP的高质量数据之谜,Meta 联合纽约大学和华盛顿大学提出

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。自2021年诞生,CLIP已在计算机视觉识别系统和生成模型上得到了...

2024-05-06 12:02:58 57

转载 博士发顶会顶刊论文图表绘图思路

“SCI论文和顶会论文里面的图都是怎么画的?我该怎么选择合适的图表?为什么我画出来的图这么丑”,我经常会被问到这些关于论文绘图的问题。在顶会、SCI论文撰写中,图表是传递复杂数据和研究结果的关键。选择合适的图表类型,如条形图、折线图或散点图,能增强论文的说服力,是科研论文中不可或缺的视觉语言。 需要注意的是论文图表一定要简洁明了,不要为了复杂而复杂。最好是:“只看论文不看图,就能看懂你要说什么;只...

2024-05-06 12:02:58 95

原创 最新140篇!2024年4月 diffusion 生成扩散模型论文汇总

001 (2024-04-26) MV-VTON Multi-View Virtual Try-On with Diffusion Models https://arxiv.org/pdf/2404.17364.pdf002 (2024-04-26) Simultaneous Tri-Modal Medical Image Fusion and Super-Resolution us...

2024-04-29 19:55:45 873

转载 Open-Sora项目升级:支持16s视频生成和720p分辨率

本文来源 机器之心编辑部Open-Sora 在开源社区悄悄更新了,现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。生成个横屏圣诞雪景,发b站再生成个竖屏,发抖音还能生成单镜头16秒的长视频,这下人人都能过把编剧瘾了怎么玩?指路GitHub:https://github.com...

2024-04-29 19:55:45 63

转载 从头设计视频生成扩散模型 | Sora之后,OpenAI安全负责人Lilian Weng亲自撰文

作者:Lilian Weng 来源机器之心 编辑:Panda过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频生成。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频生成的扩散模型的博客。Lilian Weng机器之心对这篇博客进行了不改变原意的编译、整理,以下是博客原文:视频生成任务...

2024-04-24 11:58:01 46

转载 时序多方向论文204篇大整理,包含时序预测/时序Transformer/时序大模型等最新研究...

时空预测引领了新的热点,时间序列预测领域的首个大模型 TimeGPT 引起业界热议,Transformer+时序,扩散模型+时序更是顶会新方向大热“种子”选手,时序+多方向正在成为这个AI界瞩目的黑马!本文整理了时间序列的时序预测 / 时序-Transformer / 时序-大模型 / 时序-扩散四大方向的最新论文204篇。扫码回复“时序”领论文新idea预约25日晚20:00时序最新热点解读直播...

2024-04-24 11:58:01 118

转载 前向FLOPs可降一半!DeepMind升级Transformer

本文来源 机器之心 编辑:Panda W引入混合深度,DeepMind 新设计可大幅提升 Transformer 效率。Transformer 的重要性无需多言,目前也有很多研究团队致力于改进这种变革性技术,其中一个重要的改进方向是提升 Transformer 的效率,比如让其具备自适应计算能力,从而可以节省下不必要的计算。正如不久前 Transformer 架构的提出之一、NEAR Pro...

2024-04-17 11:57:43 57

转载 整理了2000篇2024年顶会论文合集【附下载】

众所周知,论文是人工智能学习的基石,因为论文展示了不同方向最新的研究成果,了解并且掌握这些学习成果,会对自己写论文助力不少。这次我整理了AAAI 2024 /CVPR 2024 / ICLR 2024 / WACV 2024 论文合集,总共2000多篇,论文内容涵盖了3D高斯、时序、大语言模型、多模态等方向,希望对大家的学习有所帮助。扫码回复“论文”领最新2024年2000篇顶会论文合集为了让大...

2024-04-17 11:57:43 147

原创 CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!

30个方向130篇!CVPR 2023最全AIGC论文30个方向!ICCV 2023 最全AIGC论文25个方向!CVPR 2022 GAN论文汇总35个方向!ICCV 2021 最全GAN论文汇总超110篇!CVPR 2021 最全GAN论文梳理超100篇!CVPR 2020 最全GAN论文梳理在最新的视觉顶会CVPR 2024会议中,涌现出大量基于生成式AIGC的CV论文,尤其是扩散模...

2024-04-16 23:53:15 5357

原创 CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image

1、ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models3D资产生成正受到大量关注,受到最近文本引导的2D内容创建成功的启发,现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题,或在合成数据上进行微调,这往往会导致没有背景的非真实感3D物体。本文提出利用预训练的文本到图像模型作为先验,并从真实世界数据中单一...

2024-04-14 13:59:31 1115

转载 世界上第一位AI程序员Devin的诞生,我们人类程序员要如何看待和了解他?

正文开始前,先派送福利扫码备注【送书】进群,参与免费寄送【大语言模型:基础与前沿】纸质图书抽奖活动,活动截止日期2024-04-14晚上10点。也可自行购买,戳如下,专属 5折优惠!京东专属链接:Part.1Devin真的会抢走你的饭碗吗?全球首个完全自主的 AI 软件工程师上线,它是来自 Cognition 这家初创公司的产品——Devin, 这个名字也随即引爆了科技圈。话说 Devin...

2024-04-12 12:04:54 58

转载 北大Open Sora:视频生成更强了,超10秒高分辨率,还支持华为芯片

本文来源 机器之心 编辑:陈萍北大团队联合兔展发起的 Sora 复现计划,现在有了新成果。OpenAI 在今年年初扔出一项重大研究,Sora 将视频生成带入一个新的高度,很多人表示,现在的 OpenAI 一出手就是王炸。然而,众多周知的是,OpenAI 一向并不 Open,关于 Sora 的更多细节我们无从得知。谁能率先发布类 Sora 研究成了一个热门话题。今年 3 月初,北大团队联合兔展启...

2024-04-12 12:04:54 70

转载 杜克大学计算机工程系教授科研项目招生啦 | 发论文,拿推荐信的机会来了

本次项目由杜克大学计算机工程系教授R.Y.领衔。对计算机视觉、人工智能、深度学习、机器学习、机械工程专业感兴趣的同学一定要把握住这次学习机会!如果你对上面的项目感兴趣请长按识别下方二维码添加顾问老师微信咨询并发送专属口令【机器学习与AI生成创作】即可领取专属报名优惠↓↓↓↓↓本课程适合适用计算机视觉、人工智能、深度学习、机器学习、机械工程专业等专业感兴趣,有计划申请相关专业的学生计划申请海外名校,...

2024-04-11 11:58:01 57

转载 EdgeNet:低成本、大幅提升视觉分类鲁棒性!悉尼大学华人团队发布

本文来源 新智元 编辑:LRS【新智元导读】EdgeNet可以处理从干净的自然图像或嘈杂的对抗性图像中提取的边缘,产生鲁棒的特征,具有轻量级、即插即用等特点,能够无缝集成到现有的预训练深度网络中,训练成本低。在深度神经网络时代,深度神经网络(DNNs)在视觉分类任务中展现出了卓越的准确性。然而,它们对额外噪声,即对抗性攻击,表现出了脆弱性。先前的研究假设这种脆弱性可能源于高准确度的深度网络过度依...

2024-04-11 11:58:01 135

转载 上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升...

本文来源 白交 发自 凹非寺 量子位CLIP长文本能力被解锁,图像检索任务表现显著提升!一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。△棕色文本为区分两张图的关键细节Long-CLIP在保持CLIP原始特征空间的基础上,在图像生成等下游任务中即插即用,实现长文本细粒度图像生成——长文本-图像检索提升20%,短文本-图像检索提升6%。解锁CLIP长文本能力CL...

2024-04-10 12:52:07 97

转载 最新11个SAM+医学图像创新点,冲Nature!

今天分享一个能登Nature的idea——医学图像SAM。其中,MedSAM作为首个为医学图像分割设计的基础模型在2024登上Nature。在这之后,学界也开始针对SAM在医学图像中的适应性问题进行定制化改进。目前医学图像SAM方向上能够冲顶会的idea有很多。分享我总结的11个最新SAM+医学图像改进方案,并提供了源码,方便大家复现!1.MedSAM:医学图像领域的SAM,2024登Nature...

2024-04-10 12:52:07 75

原创 CVPR 2024 | 图像检测类(目标、deepfake、异常)!AIGC扩散模型diffusion解决detection任务...

目标跟踪1、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking多目标跟踪(Multiple Object Tracking,MOT)是计算机视觉领域中一个关键领域,有广泛应用。当前研究主要集中在跟踪算法的开发和后处理技术的改进上。然而,对跟踪数据本身的特性缺乏深入的研究。本研究首次对跟踪数据的分布模...

2024-04-08 11:18:34 2390

转载 教你从0开始发一篇SCI,科研小白必看!

今天向所有在2024以及未来几年内发论文的同学分享一些资料:23年各大顶会论文合集、80个代码中的即插即用模块、论文写作方法论、以及完成初稿后的论文润色。发论文,首先大家需要解决idea的问题。最有效,也是最简单的方法:多看文献多总结。只有多读文献,才能了解领域发展、找到现有的问题、思考总结出idea。今天分享过去的一年内CV、NLP、ML方向的各大顶会论文合集。涵盖CVPR2022-2023、I...

2024-04-03 12:06:32 91

转载 万字长文,深度梳理Python多线程与多进程

作者:钱魏Way 文仅分享,侵删链接:https://www.biaodianfu.com/python-multi-thread-and-multi-process.html导读在Python中,多线程和多进程都是用于实现并行处理的方式,它们提供了在单个进程内或跨多个进程执行并发操作的网关,提高了系统的速度和效率。很多同学对其中的原理,并不是特别了解,本文系统性的讲解其中的各个知识点,希...

2024-04-03 12:06:32 84

原创 CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路...

1、Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder超分辨率(SR)和图像生成是计算机视觉中重要的任务,在现实应用中得到广泛采用。然而,大多数现有方法仅在固定放大倍数下生成图像,并且容易出现过平滑和伪影。此外,在输出图像的多样性和不同尺度下...

2024-04-02 11:31:59 2552

转载 这居然也能发顶会?

发顶会是有诀窍的,魔鬼藏在细节里。以刚刚公布审稿结果的ACL 2024为例,我总结了审稿人给出2.5分的几条普遍理由。审稿先看Abstract和introduction,这个时候对文章档次的判断已经八九不离十了。对于boardline 和 accept 水平的文章,审稿人会看看文章剩余部分的图和表,检查有无问题,最后看实验是否充分,再酌情扣分。文章的细节和语法错误,这些虽然都是小错误,但是能够看出...

2024-04-01 11:58:18 89

转载 比Sora更持久!120秒超长AI视频模型诞生!

本文来源 新智元 编辑:润 好困【新智元导读】UT奥斯丁等机构提出了一种名为StreamingT2V的技术,让AI视频的长度扩展至近乎无限,而且一致性,动作幅度也非常好!Sora一出,文生视频的在长度这个指标上就卷的没边了。从Pika和Runway的4秒,到VideoPoet的理论无限长,各个团队都在通过各种不同的技术路径不断延长视频生成长度的上限。最近,来自Picsart AI Resear...

2024-04-01 11:58:18 86

原创 CVPR 2024 | 风格迁移和人像生成汇总!扩散模型diffusion用于经典AIGC方向

风格迁移1、DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations基于文本到图像扩散模型在迁移参考风格方面具有巨大潜力。然而,当前基于编码器的方法在迁移风格时显著损害了文本到图像模型的文本可控性。本文提出DEADiff来解决这个问题,采用以下两种策略:1)一种解耦参考图像的风格和语义的机...

2024-03-30 21:52:29 1999

原创 CVPR 2024 | 从6篇论文看扩散模型diffusion的改进方向

1、Accelerating Diffusion Sampling with Optimized Time Steps扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。为解决这个问题,...

2024-03-28 12:05:12 2722

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除