机器学习与AI生成创作-CSDN博客

转载 CogVLM2：最新开源多模态SOTA！19B模型比肩GPT-4v，16G显存就能跑

本文来源梦晨发自凹非寺量子位 QbitAI开源多模态SOTA模型再易主！Hugging Face开发者大使刚刚把王冠交给了CogVLM2，来自大模型创业公司智谱AI。CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro，还不是超过一点，是大幅领先。网友闻讯而来，发现ChatGPT新绝技之“AI挑瓜”，我们开源届也不缺了。更复杂的学术图表，它也能理解并给出详细解释。C...

2024-05-22 18:36:45 29

转载 ConsistentID：针对定制化人脸需求！中山大学提出多模态精细化生成方法！

本文来源皓楠投稿自凹非寺量子位 QbitAI只需上传一张照片，就能瞬间变换身份，获得高精度个人写真！或是科幻电影中的超级英雄，或是穿越时空的复古角色……李飞飞在家做饭的样子有了，还有让斯嘉丽一键带圣诞帽。除此之外，杨幂+小兰两位人脸融合在一起会是什么样子？中山大学、联想的研究团队推出了ConsistentID，可在细粒度多模态面部提示下，仅利用单张参考图像生成多样的肖像，且保持五官的...

2024-05-22 18:36:45 6

转载中国特色！针对中文的DiT架构！腾讯混元文生图大模型开源

本文转自机器之心编辑部中文 AI 社区迎来了一个好消息：与 Sora 同架构的开源文生图大模型来了！5 月 14 日，腾讯宣布旗下混元文生图大模型全面升级并全面开源，目前已在 Hugging Face 平台及 GitHub 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。官网地址：https://dit.hunyuan.tencent.com/GitHub 项...

2024-05-16 18:26:23 22

转载第一本给程序员看的AI Agent图书！

正文开始前，先派送福利扫码备注【送书】进群，参与免费寄送【动手做AI Agent】纸质图书抽奖活动，活动截止日期2024-05-19晚上10点。也可自行购买，戳如下，专属 5折优惠！京东专属链接：AI Agent火爆到什么程度？OpenAI创始人奥特曼预测，未来各行各业，每一个人都可以拥有一个AI Agent；比尔·盖茨在2023年层预言：AI Agent将彻底改变人机交互方式，并颠覆整个...

2024-05-16 18:26:23 18

转载性能超Transformer！Mamba系列论文整理分享

Mamba01Mamba作为一种新型的选择性状态空间模型方法，在语言建模方面可以媲美Transformer，并且目前已经有了很多结合Mamba的研究成果。那么，今天我就整理了Mamba经典论文+Mamba大模型/遥感/医学/综述等论文合集。论文合集获取方式如下：添加课程回复"Mamba"01.Mamba: Linear-Time Sequence Modeling with Selective S...

2024-05-15 13:01:39 35

转载 GPT-4o：横跨视听说交互能力！免费开放！

梦晨克雷西发自凹非寺量子位 | 公众号 QbitAIOpenAI最新旗舰大模型GPT-4o！！！不仅免费可用，能力更是横跨听、看、说，丝滑流畅毫无延迟！就像在打一个视频电话！现场直播的效果更是炸裂：它能感受到你的呼吸节奏，也能用比以前更丰富的语气实时回复，甚至可以做到随时打断。GPT-4o里的“o”是Omni的缩写，也就是“全能”的意思，接受文本、音频和图像的任意组合作为输入，并生成文本...

2024-05-15 13:01:39 14

原创 CVPR 2024 | idea这不就有了！扩散diffusion模型100+篇论文、40+研究方向（清单版）...

30个方向130篇！CVPR 2023最全AIGC论文30个方向！ICCV 2023 最全AIGC论文25个方向！CVPR 2022 GAN论文汇总35个方向！ICCV 2021 最全GAN论文汇总超110篇！CVPR 2021 最全GAN论文梳理超100篇！CVPR 2020 最全GAN论文梳理最新视觉顶会CVPR 2024会议，涌现出大量基于生成式AIGC的CV论文，尤其扩散模型dif...

2024-05-09 11:59:44 1019

转载 StoryDiffusion：让多图漫画和长视频更连贯！南开、字节开源

本文来源机器之心编辑：杨文、亚鹂有了 StoryDiffusion，更加一致性的图像和视频生成得到了保障。两天前，图灵奖得主 Yann LeCun 转载了「自己登上月球去探索」的长篇漫画，引起了网友的热议。其实，产出这些漫画的研究出自南开大学、字节跳动等机构。在《StoryDiffusion：Consistent Self-Attention for long-range image an...

2024-05-08 13:05:41 84

转载 MetaCLIP：揭开CLIP的高质量数据之谜，Meta 联合纽约大学和华盛顿大学提出

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。自2021年诞生，CLIP已在计算机视觉识别系统和生成模型上得到了...

2024-05-06 12:02:58 31

转载博士发顶会顶刊论文图表绘图思路

“SCI论文和顶会论文里面的图都是怎么画的？我该怎么选择合适的图表？为什么我画出来的图这么丑”，我经常会被问到这些关于论文绘图的问题。在顶会、SCI论文撰写中，图表是传递复杂数据和研究结果的关键。选择合适的图表类型，如条形图、折线图或散点图，能增强论文的说服力，是科研论文中不可或缺的视觉语言。需要注意的是论文图表一定要简洁明了，不要为了复杂而复杂。最好是：“只看论文不看图，就能看懂你要说什么；只...

2024-05-06 12:02:58 50

原创最新140篇！2024年4月 diffusion 生成扩散模型论文汇总

001 (2024-04-26) MV-VTON Multi-View Virtual Try-On with Diffusion Models https://arxiv.org/pdf/2404.17364.pdf002 (2024-04-26) Simultaneous Tri-Modal Medical Image Fusion and Super-Resolution us...

2024-04-29 19:55:45 649

转载 Open-Sora项目升级：支持16s视频生成和720p分辨率

本文来源机器之心编辑部Open-Sora 在开源社区悄悄更新了，现在单镜头支持长达16秒的视频生成，分辨率最高可达720p，并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。生成个横屏圣诞雪景，发b站再生成个竖屏，发抖音还能生成单镜头16秒的长视频，这下人人都能过把编剧瘾了怎么玩？指路GitHub：https://github.com...

2024-04-29 19:55:45 37

转载从头设计视频生成扩散模型 | Sora之后，OpenAI安全负责人Lilian Weng亲自撰文

作者：Lilian Weng 来源机器之心编辑：Panda过去几年来，扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务：视频生成。近日，OpenAI 安全系统（Safety Systems）负责人 Lilian Weng 写了一篇关于视频生成的扩散模型的博客。Lilian Weng机器之心对这篇博客进行了不改变原意的编译、整理，以下是博客原文：视频生成任务...

2024-04-24 11:58:01 32

转载时序多方向论文204篇大整理，包含时序预测/时序Transformer/时序大模型等最新研究...

时空预测引领了新的热点，时间序列预测领域的首个大模型 TimeGPT 引起业界热议，Transformer+时序，扩散模型+时序更是顶会新方向大热“种子”选手，时序+多方向正在成为这个AI界瞩目的黑马！本文整理了时间序列的时序预测 / 时序-Transformer / 时序-大模型 / 时序-扩散四大方向的最新论文204篇。扫码回复“时序”领论文新idea预约25日晚20:00时序最新热点解读直播...

2024-04-24 11:58:01 82

转载前向FLOPs可降一半！DeepMind升级Transformer

本文来源机器之心编辑：Panda W引入混合深度，DeepMind 新设计可大幅提升 Transformer 效率。Transformer 的重要性无需多言，目前也有很多研究团队致力于改进这种变革性技术，其中一个重要的改进方向是提升 Transformer 的效率，比如让其具备自适应计算能力，从而可以节省下不必要的计算。正如不久前 Transformer 架构的提出之一、NEAR Pro...

2024-04-17 11:57:43 48

转载整理了2000篇2024年顶会论文合集【附下载】

众所周知，论文是人工智能学习的基石，因为论文展示了不同方向最新的研究成果，了解并且掌握这些学习成果，会对自己写论文助力不少。这次我整理了AAAI 2024 /CVPR 2024 / ICLR 2024 / WACV 2024 论文合集，总共2000多篇，论文内容涵盖了3D高斯、时序、大语言模型、多模态等方向，希望对大家的学习有所帮助。扫码回复“论文”领最新2024年2000篇顶会论文合集为了让大...

2024-04-17 11:57:43 93

原创 CVPR 2024 | 绝了！！最新 diffusion 扩散模型梳理！100+篇论文、40+研究方向！

30个方向130篇！CVPR 2023最全AIGC论文30个方向！ICCV 2023 最全AIGC论文25个方向！CVPR 2022 GAN论文汇总35个方向！ICCV 2021 最全GAN论文汇总超110篇！CVPR 2021 最全GAN论文梳理超100篇！CVPR 2020 最全GAN论文梳理在最新的视觉顶会CVPR 2024会议中，涌现出大量基于生成式AIGC的CV论文，尤其是扩散模...

2024-04-16 23:53:15 2844

原创 CVPR 2024 | 可控文生图11篇汇总！基于扩散模型diffusion的text-to-image

1、ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models3D资产生成正受到大量关注，受到最近文本引导的2D内容创建成功的启发，现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题，或在合成数据上进行微调，这往往会导致没有背景的非真实感3D物体。本文提出利用预训练的文本到图像模型作为先验，并从真实世界数据中单一...

2024-04-14 13:59:31 962

转载世界上第一位AI程序员Devin的诞生，我们人类程序员要如何看待和了解他？

正文开始前，先派送福利扫码备注【送书】进群，参与免费寄送【大语言模型：基础与前沿】纸质图书抽奖活动，活动截止日期2024-04-14晚上10点。也可自行购买，戳如下，专属 5折优惠！京东专属链接：Part.1Devin真的会抢走你的饭碗吗？全球首个完全自主的 AI 软件工程师上线，它是来自 Cognition 这家初创公司的产品——Devin，这个名字也随即引爆了科技圈。话说 Devin...

2024-04-12 12:04:54 49

转载北大Open Sora：视频生成更强了，超10秒高分辨率，还支持华为芯片

本文来源机器之心编辑：陈萍北大团队联合兔展发起的 Sora 复现计划，现在有了新成果。OpenAI 在今年年初扔出一项重大研究，Sora 将视频生成带入一个新的高度，很多人表示，现在的 OpenAI 一出手就是王炸。然而，众多周知的是，OpenAI 一向并不 Open，关于 Sora 的更多细节我们无从得知。谁能率先发布类 Sora 研究成了一个热门话题。今年 3 月初，北大团队联合兔展启...

2024-04-12 12:04:54 58

转载杜克大学计算机工程系教授科研项目招生啦 | 发论文，拿推荐信的机会来了

本次项目由杜克大学计算机工程系教授R.Y.领衔。对计算机视觉、人工智能、深度学习、机器学习、机械工程专业感兴趣的同学一定要把握住这次学习机会！如果你对上面的项目感兴趣请长按识别下方二维码添加顾问老师微信咨询并发送专属口令【机器学习与AI生成创作】即可领取专属报名优惠↓↓↓↓↓本课程适合适用计算机视觉、人工智能、深度学习、机器学习、机械工程专业等专业感兴趣，有计划申请相关专业的学生计划申请海外名校，...

2024-04-11 11:58:01 51

转载 EdgeNet：低成本、大幅提升视觉分类鲁棒性！悉尼大学华人团队发布

本文来源新智元编辑：LRS【新智元导读】EdgeNet可以处理从干净的自然图像或嘈杂的对抗性图像中提取的边缘，产生鲁棒的特征，具有轻量级、即插即用等特点，能够无缝集成到现有的预训练深度网络中，训练成本低。在深度神经网络时代，深度神经网络（DNNs）在视觉分类任务中展现出了卓越的准确性。然而，它们对额外噪声，即对抗性攻击，表现出了脆弱性。先前的研究假设这种脆弱性可能源于高准确度的深度网络过度依...

2024-04-11 11:58:01 106

转载上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升...

本文来源白交发自凹非寺量子位CLIP长文本能力被解锁，图像检索任务表现显著提升！一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。△棕色文本为区分两张图的关键细节Long-CLIP在保持CLIP原始特征空间的基础上，在图像生成等下游任务中即插即用，实现长文本细粒度图像生成——长文本-图像检索提升20%，短文本-图像检索提升6%。解锁CLIP长文本能力CL...

2024-04-10 12:52:07 83

转载最新11个SAM+医学图像创新点，冲Nature！

今天分享一个能登Nature的idea——医学图像SAM。其中，MedSAM作为首个为医学图像分割设计的基础模型在2024登上Nature。在这之后，学界也开始针对SAM在医学图像中的适应性问题进行定制化改进。目前医学图像SAM方向上能够冲顶会的idea有很多。分享我总结的11个最新SAM+医学图像改进方案，并提供了源码，方便大家复现！1.MedSAM：医学图像领域的SAM，2024登Nature...

2024-04-10 12:52:07 62

原创 CVPR 2024 | 图像检测类（目标、deepfake、异常）！AIGC扩散模型diffusion解决detection任务...

目标跟踪1、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking多目标跟踪（Multiple Object Tracking，MOT）是计算机视觉领域中一个关键领域，有广泛应用。当前研究主要集中在跟踪算法的开发和后处理技术的改进上。然而，对跟踪数据本身的特性缺乏深入的研究。本研究首次对跟踪数据的分布模...

2024-04-08 11:18:34 1899

转载教你从0开始发一篇SCI，科研小白必看！

今天向所有在2024以及未来几年内发论文的同学分享一些资料：23年各大顶会论文合集、80个代码中的即插即用模块、论文写作方法论、以及完成初稿后的论文润色。发论文，首先大家需要解决idea的问题。最有效，也是最简单的方法：多看文献多总结。只有多读文献，才能了解领域发展、找到现有的问题、思考总结出idea。今天分享过去的一年内CV、NLP、ML方向的各大顶会论文合集。涵盖CVPR2022-2023、I...

2024-04-03 12:06:32 81

转载万字长文，深度梳理Python多线程与多进程

作者：钱魏Way 文仅分享，侵删链接：https://www.biaodianfu.com/python-multi-thread-and-multi-process.html导读在Python中，多线程和多进程都是用于实现并行处理的方式，它们提供了在单个进程内或跨多个进程执行并发操作的网关，提高了系统的速度和效率。很多同学对其中的原理，并不是特别了解，本文系统性的讲解其中的各个知识点，希...

2024-04-03 12:06:32 65

原创 CVPR 2024 | 图像超分、图像恢复汇总！用AIGC扩散模型diffusion来解决图像low-level任务的思路...

1、Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder超分辨率（SR）和图像生成是计算机视觉中重要的任务，在现实应用中得到广泛采用。然而，大多数现有方法仅在固定放大倍数下生成图像，并且容易出现过平滑和伪影。此外，在输出图像的多样性和不同尺度下...

2024-04-02 11:31:59 1600

转载这居然也能发顶会？

发顶会是有诀窍的，魔鬼藏在细节里。以刚刚公布审稿结果的ACL 2024为例，我总结了审稿人给出2.5分的几条普遍理由。审稿先看Abstract和introduction，这个时候对文章档次的判断已经八九不离十了。对于boardline 和 accept 水平的文章，审稿人会看看文章剩余部分的图和表，检查有无问题，最后看实验是否充分，再酌情扣分。文章的细节和语法错误，这些虽然都是小错误，但是能够看出...

2024-04-01 11:58:18 76

转载比Sora更持久！120秒超长AI视频模型诞生！

本文来源新智元编辑：润好困【新智元导读】UT奥斯丁等机构提出了一种名为StreamingT2V的技术，让AI视频的长度扩展至近乎无限，而且一致性，动作幅度也非常好！Sora一出，文生视频的在长度这个指标上就卷的没边了。从Pika和Runway的4秒，到VideoPoet的理论无限长，各个团队都在通过各种不同的技术路径不断延长视频生成长度的上限。最近，来自Picsart AI Resear...

2024-04-01 11:58:18 71

原创 CVPR 2024 | 风格迁移和人像生成汇总！扩散模型diffusion用于经典AIGC方向

风格迁移1、DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations基于文本到图像扩散模型在迁移参考风格方面具有巨大潜力。然而，当前基于编码器的方法在迁移风格时显著损害了文本到图像模型的文本可控性。本文提出DEADiff来解决这个问题，采用以下两种策略：1）一种解耦参考图像的风格和语义的机...

2024-03-30 21:52:29 1666

原创 CVPR 2024 | 从6篇论文看扩散模型diffusion的改进方向

1、Accelerating Diffusion Sampling with Optimized Time Steps扩散概率模型（DPMs）在高分辨率图像生成方面显示出显著性能，但由于通常需要大量采样步骤，其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而，大多数采样方法仍使用均匀的时间步长，在使用少量步骤时并不是最优的。为解决这个问题，...

2024-03-28 12:05:12 2198

转载 2024 CSRankings全美计算机科学排名发布！CMU霸榜，MIT跌出前5

本文来源新智元编辑：桃子【新智元导读】全美CSRankings 2024结果出炉！全美计算机科学专业排名中，排名前三的学校是CMU、UIUC、佐治亚理工学院。值得注意的是，MIT跌出了全美前5。2024 CSRankings全美计算机科学专业排名，刚刚发布了！今年，全美全美CS最佳大学排名中，卡耐基梅隆大学（CMU）位列全美第一，同时是CS世界第一。与此同时，伊利诺伊大学香槟分校（UIUC）...

2024-03-27 11:55:55 128

原创 CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览

1、机器人规划/智能决策 SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution扩散模型已展示在机器人轨迹规划方面的潜力。然而，从高级指令生成连贯的轨迹仍具有挑战性，特别是对于需要多个序列技能的长距离组合任务。提出SkillDiffuser...

2024-03-21 11:49:51 1092

转载 200+自动驾驶最新论文代码，超全分类汇总

2024年开始，将是高阶自动驾驶关键节点。大模型、端到端、OCC这些技术正逐步走向量产。今天就为大家盘点200+篇自动驾驶论文与代码，来自ICCV、NeurIPS等顶会，涉及大模型自动驾驶、端到端、BEV感知、检测、OCC等10余个研究方向。本论文合集涵盖的研究方向全面，内容充实。能帮助大家一览自动驾驶发展路线与前沿趋势。扫码下载全部论文PDF与代码。长按二维码下载自动驾驶200+论文代码合集大模...

2024-03-20 11:51:47 100

转载 StableDrag：拖拽P图技术再升级！更稳、更准 | 南大、腾讯联合打造

本文来源机器之心编辑：杜伟、陈萍去年 5 月，动动鼠标就能让图片变「活」得研究 DragGAN 吸引了 AI 圈的关注。通过拖拽，我们可以改变并合成自己想要的图像，比如下图中让一头狮子转头并张嘴。实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文，于上个月放出并已被 SIGGRAPH 2023 会议接收。相关的项目在 GitHub 上已经积累了 34.5k 的 Star...

2024-03-20 11:51:47 76

转载「Open-Sora 1.0」！Colossal-AI 团队复现开源！

本文来源机器之心编辑部不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红，在一众文生视频模型中突出重围，成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后，Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型「Open-Sora 1.0」，涵盖了整个训练流程，包括数据处理、所有训练细节和模型权重，携手全球 AI 热爱者共同...

2024-03-19 11:59:01 101

转载英伟达提出LLMs微调方法LoRA新SOTA！强大易复现！

当下主流的LLMs微调方法LoRA，又出新变体了。近期，英伟达联合港科大，公布了名为DoRA的高效微调技术，通过对预训练权重矩阵，进行低秩分解，实现了更细粒度的模型更新，微调效率也大大提升，在一系列下游任务中，训练速度和性能表现，均明显优于LoRA！为了让大家快速掌握最新算法，研梦非凡特请来了该领域科研大牛，定制了直播课《AI前沿论文解析系列—DoRA: Weight-Decomposed L...

2024-03-19 11:59:01 112

转载 GitHub 2K+星、B站播放量超30万，大模型入门看这本书就够了！

正文开始前，先派送福利扫码备注【送书】进群，参与免费寄送【ChatGPT原理与应用开发】纸质图书抽奖活动，活动截止日期2024-03-17晚上10点。也可自行购买，戳如下，专属 5折优惠！京东专属链接：喜欢AI，对ChatGPT超级好奇，但被市面上爆增的大模型书籍和教学视频弄得眼花缭乱？没事！Datawhale团队最新推出的“蝴蝶书”——《ChatGPT原理与应用开发》来啦！这本书源自Da...

2024-03-14 11:43:58 68

转载 CVPR2024｜DragGAN并不需要点跟踪！FreeDrag：无需点跟踪即可稳定拖动语义内容

编辑丨极市平台Paper：https://arxiv.org/abs/2307.04684Code：https://github.com/LPengYang/FreeDragProject Page：https://lin-chen.site/projects/freedrag/近日，在AIGC的广阔世界里出现了一个火热的图像编辑方法---即通过在给定图像上通过把语义内容从原位置（handle p...

2024-03-14 11:43:58 80

空空如也

空空如也