- 博客(1198)
- 收藏
- 关注
转载 ControlNet 艺术二维码:画出可扫码插画,内容链接任意指定
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI一组神秘的“虚拟老婆”照片,最近在国内外社交媒体上传疯了。怎么回事?试着用手机扫一下,就能发现其中的玄机——原来这些看起来颇为自然的照片,都是藏了二维码的图像。它们不仅能被手机相机识别,跳转的网站还都是有效的:从推特到Reddit,每隔几条就能刷出这些二维码照片,下面全是一片“竟然扫出来了”的惊叹声。最关键的是,这些照片并非手动绘制,而是用Sta...
2023-06-10 19:08:08
原创 一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!
击上方“机器学习与AI生成创作”,关注星标获取有趣、好玩的前沿干货!【AI生成创作与计算机视觉】知识星球2022、2023年开始,基于扩散模型的AI绘画、ChatGPT系列大模型主导的AIGC狂潮已来!大模型下的科研、工业应用方向,已在重构进行中!计算机视觉、图像处理方向已迎来新一轮变革!AIGC将渗透到每一个细领域!跟进、学习了解最经典、最新、最前沿的AIGC、CV+大语言模型等多模态理解与生成...
2023-06-10 19:08:08
1
原创 继万物分割SAM之后,万物识别模型RAM来了!
Recognize Anything: A Strong Image Tagging Model提出“识别万物模型”(Recognize Anything Model,RAM),用于图像打标签。RAM 可以高精度地识别任何常见类别。RAM 引入了图像打标签的一个新范式,利用大规模的图像-文本对进行训练,而不是手动标注。开发 RAM 分为四个步骤。首先,通过自动文本语义解析获得图像标签。随后,通过统...
2023-06-08 11:51:48
334
转载 炸裂!最新的CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!
2023年的各大顶会已经陆陆续续截稿,包括CVPR2023、ICML2023、ACL2023、AAAI2023在内的诸多顶会都已经放榜。让我们一起来看看,被AI圈大佬们力荐的顶级会议,今年都接收了哪些论文吧!为了方便大家阅读,我把各大顶会的论文整理打包,按会议合集、细分方向合集整理如下:1、2023年顶会论文代码合集会议论文合集CVPR 2023论文&代码ECCV 2022论文&代...
2023-06-08 11:51:48
35
转载 向社会输出人才提供论证!阿里:GPT-4 vs 年薪60万数据分析师,成本只占0.45%
梦晨 发自 凹非寺量子位 | 公众号 QbitAIGPT-4替代成本GPT-4替代初级数据分析师的成本只有0.71%,换成高级数据分析师则是0.45%……你没看错,是百分之零点七一,不是百分之七十一。按新加坡行情,年薪8.6万-9万美元(60-63万人民币)的高级数据分析师,换成GPT-4就只需要三四百美元(2000多人民币)了。这项结论来自阿里达摩院与新加坡南洋理工大学的新论文,被网友评价为对A...
2023-06-06 17:06:36
17
转载 UniControl:条件可控的图像生成,通用统一
本文来源 机器之心编辑部来自 Salesforce AI、东北大学、斯坦福大学的研究者提出了 MOE-style Adapter 和 Task-aware HyperNet 来实现 UniControl 中的多模态条件生成能力。UniControl 在九个不同的 C2I 任务上进行训练,展示了强大的视觉生成能力和 zero-shot 泛化能力。论文地址:https://arxiv.org/abs...
2023-06-06 17:06:36
14
转载 识别「ChatGPT造假」,效果超越OpenAI:北大、华为的AI生成检测器来了
本文来源 机器之心编辑部AI 造假的成功率很高,前几天「10 分钟骗 430万」还上了热搜。在最热门的大语言模型上,研究人员最近探索了一种识别方法。随着生成式大模型的不断进步,它们生成的语料正逐步逼近人类。虽然大模型正在解放无数文书的双手,它以假乱真的强劲能力也为一些不法分子所利用,造成了一系列社会问题:来自北大、华为的研究者们提出了一种识别各式 AI 生成语料的可靠文本检测器。根据长短文本的不...
2023-06-05 11:58:47
12
转载 图神经网络前沿研究+热门应用!论文代码自取!
图神经网络(GNN)是一类基于深度学习的处理图域信息的方法。它的出现,解决了深度学习在处理没有空间局部性、包含多模态特征、没有参考节点的非结构化数据时会遇到的问题。因此,图神经网络已经成为各大深度学习顶会的研究热点。目前一个热门的方向,是生物医学领域中基于图神经网络的空间转录组数据聚类研究。图神经网络能够准确识别和理解不同类型的细胞群落,并揭示细胞的功能和相互作用。为了帮助大家更好的理解图神经网络...
2023-06-05 11:58:47
17
转载 DreamGPT:让ChatGPT活在梦里!利用幻觉来激发创意灵感
本文来源 新智元 编辑:LRS【新智元导读】语言模型幻觉从bug变feature!ChatGPT最为人诟病的缺陷就是「胡编乱造」了,可以一本正经地讲一段林黛玉倒拔垂杨柳的故事。对于真正想了解「林黛玉」或「倒拔垂杨柳」的人来说,这段回答可以说是灾难级误导了,但对于专注于「虚构」和「创意」的从业者来说,天马行空幻觉反而可以激发创造力。最近DivergentAI开源了DreamGPT,也是首个尝试利...
2023-05-31 19:05:19
24
转载 汇总解析 | 基于GPT的图文理解问答
福利!免费寄送图书!!内容简介《ChatGPT时代:ChatGPT全能应用一本通》从ChatGPT等自然语言大模型基础知识讲起,重点介绍了ChatGPT等语言大模型在生活中的实际应用,让每一个人都能了解未来的生活和工作。分为16章,涵盖的主要内容有人工智能、OpenAI、ChatGPT的介绍、ChatGPT的使用技巧,展现ChatGPT在教育与学术、商业管理、新媒体、办公、求职、法律、电商等不同领...
2023-05-31 19:05:19
39
原创 CVPR 2023 | 去雨去噪去模糊,图像low-level任务,视觉AIGC系列
Learning A Sparse Transformer Network for Effective Image Deraining基于Transformer的方法在图像去雨任务中取得了显著的性能,因为它们可以对重要的非局部信息进行建模,这对高质量的图像重建至关重要。本文发现大多数现有的Transformer通常使用查询-键对中的所有token的相似性进行特征聚合。然而,如果查询中的token与...
2023-05-29 21:35:46
264
转载 落地部署神器?13层网络拿下83%精度,华为诺亚新型神经网络架构VanillaNet「简约」到极致...
机器之心编辑部深度学习模型架构越复杂越好吗?自过去的几十年里,人工神经网络取得了显著的进展,这归功于一种理念:增加网络的复杂度可以提高性能。从 AlexNet 引爆了深度学习在计算机视觉的热潮后,研究者们为了提升深度网络的性能,精心地设计出了各种各样的模块,包括 ResNet 中的残差,ViT 中的注意力机制等。然而,尽管深层的复杂神经网络可以取得很好的性能,但他们在实际应用中的推理速度往往会受到...
2023-05-29 21:35:46
46
转载 多模态扩散模型 Any-to-Any 生成:文本、图像、视频、音频
机器之心 编辑:陈萍、杜伟一种模型统一多种模态实现了。给定一句话,然后让你想象这句话在现实场景中的样子,对于人类来说这项任务过于简单,比如「一辆进站的火车」,人类可以进行天马行空的想象火车进站时的样子,但对模型来说,这可不是一件容易的事,涉及模态的转换,模型需要理解这句话的含义,然后根据这句话生成应景的视频、音频,难度还是相当大的。现在,来自北卡罗来纳大学教堂山分校、微软的研究者提出的可组合扩散(...
2023-05-27 00:02:50
50
原创 CVPR 2023 | 风格迁移论文3篇简读,视觉AIGC系列
CAP-VSTNet: Content Affinity Preserved Versatile Style Transfer内容相似度损失(包括特征和像素相似度)是逼真和视频风格迁移中出现伪影的主要问题。本文提出了一个名为CAP-VSTNet的新框架,包括一个新的可逆残差网络(reversible residual network)和一个无偏线性变换模块,用于多功能风格转移。这个可逆残差网络不仅...
2023-05-27 00:02:50
1032
转载 Make-A-Protagonist:随心所欲改变视频主角?!
只要一张参考图片,普通人也可以替换成视频的主角随着扩散模型的发展,基于输入文本生成高质量的图片和视频已经成为现实,但是仅使用文本生成视觉内容的可控性有限。为了克服这个问题,研究人员们开始探索额外的控制信号和对现有内容进行编辑的方法。这两个方向在一定程度上实现了生成过程的可控性,但仍然需要依赖文本来描述目标生成内容。在实际应用中,我们面临着一个新的需求:“如果用户想要生成的内容无法用语言描述呢?” ...
2023-05-25 11:05:28
27
转载 10 分钟被骗 430 万背后,AI 换脸 + 换声泛滥。视频语音未必可信,需深入询问、加暗号验证。。...
整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)在 ChatGPT 的“点火”下,这趟名为 AI 的列车已逐渐从幕后驶向台前,吸引了不少人的关注和“搭乘”——而科技,向来是一把双刃剑。俗语有言,“耳听为虚,眼见为实”,可如今在 AI 的影响下,“眼见”也不一定为“实”了:近日,一骗子通过智能 AI 换脸和拟声技术,使某科技公司老板在 10 分钟内被骗了 430 万元。有网友感慨:“...
2023-05-25 11:05:28
39
转载 Transformer接管大模型?RNN说 NO!
梦晨 衡宇 发自 凹非寺 量子位 | 公众号 QbitAIChatGPT爆火以来,大语言模型和Transformer几乎成了同义词,然而真的如此吗?刚刚,一个由国人主导,总共27所大学、研究机构和公司组成的开源研究团队,联名发表重磅论文《RWKV:在Transformer的时代重新发明RNN》,受到学术界大量关注。RWKV就是论文中提出的新深度学习模型架构,以循环神经网络RNN为基础魔改而来。实际...
2023-05-23 22:26:00
30
转载 了解这些数据,人人都是大模型专家!手动狗头,GitHub热文《大语言模型(LLM)开发者必须知道的数字》...
克雷西 发自 凹非寺 量子位 | 公众号 QbitAIGPT-4的使用成本,竟然是GPT-3.5的50倍之多;而让大语言模型同时处理25个请求的时间,仅是处理单个请求的2倍……这些数据听上去可能有些出乎意料,但都是真实的。它们出自一篇名为《大语言模型(LLM)开发者必须知道的数字》的GitHub文章。文章发布之后仅1天,便获得了1200次星标。文章基于真实的开发经验,介绍了提示工程、硬件资源、价...
2023-05-23 22:26:00
58
转载 整理了43篇AI生物中蛋白质结构、算法模型、临床数据三大热门领域的相关论文...
2022年,Nature Medicine发布了题为“AI in health and medicine”的综述文章,表明人工智能正在重塑医学。不久,DeepMind官宣:AlphaFold2预测出2.14亿个蛋白质结构,几乎涵盖地球上所有已知蛋白质。近一年来,我们见证了AI在生物医学中的一次次突破。本文根据蛋白质结构、算法模型、临床数据三大热门领域,对近一年以来的43篇重要论文进行整理,并且选了...
2023-05-19 11:59:17
145
转载 又一个GPT-4平替版!训练开销骤减,定制专属多模态大模型!
张傲,费豪,姚远,吉炜,黎力,刘知远,Chua Tat-Seng机构:新加坡国立大学,清华大学本文来源 机器之心最近的多模态(对话)大模型将基于文本的 ChatGPT 的强大能力扩展到了多模态输入,实现强大的多模态语义理解,比如 GPT-4、BLIP-2、Flamingo 等。但对于很多研究者来说,训练一个多模态 GPT 代价非常昂贵。本文来自新加坡国立大学和清华大学的研究者提出了一个名...
2023-05-19 11:59:17
85
转载 大模型地方战略第一枪!北京公布通用人工智能发展21项措施
来源:首都之窗措施见以下:01.加强算力资源统筹供给能力(一)组织商业算力定向满足本市紧迫需求加强与头部公有云厂商等市场主体合作,实施算力伙伴计划,并确定首批伙伴计划成员,明确供给技术标准、软硬件服务要求、算力供给规模、优惠策略等,向在京高校院所和中小企业公布一批优质算力供应商。(二)高效推动新增算力基础设施建设将新增算力建设项目纳入算力伙伴计划,加快推动海淀区“北京人工智能公共算力平台”,朝阳区...
2023-05-18 11:57:51
57
转载 ControlNet再上新!给张参考图,维持语义,无需微调
丰色 发自 凹非寺 量子位 | 公众号 QbitAIStable Diffusion插件、“AI绘画细节控制大师”ControlNet迎来重磅更新:只需使用文本提示词,就能在保持图像主体特征的前提下,任意修改图像细节。比如给美女从头发到衣服都换身造型,表情更亲和一点:抑或是让模特从甜美邻家女孩切换到高冷御姐,身体和头部的朝向、背景都换个花样儿:——不管细节怎么修改,原图的“灵魂”都还在。除了这种...
2023-05-17 11:58:03
81
转载 HuggingGPT进化,一键控制10万多个AI模型
本文 机器之心 编辑:张倩、蛋酱通过 Transformers Agents,你可以控制 10 万多个 Hugging Face 模型完成各种多模态任务。从聊天到编程再到支持各种插件,强大的 ChatGPT 早就不是一个简单的对话助手,而是朝着 AI 界的「管理层」不断前进。3 月 23 号,OpenAI 宣布 ChatGPT 开始支持各类第三方插件,比如著名的理工科神器 Wolfram Alp...
2023-05-17 11:58:03
42
原创 【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法...
【CVPR 2023的AIGC应用汇总(7)】face相关(换脸/编辑/恢复) diffusion扩散/GAN生成对抗【CVPR 2023的AIGC应用汇总(6)】医学图像diffusion扩散/GAN生成对抗网络【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成,基于diffusion扩散/GAN生成对抗【CVPR 2023的AIGC应用汇总(4)】图像恢复,基于GAN生成对抗/di...
2023-05-15 12:03:32
353
转载 生成视频如此简单,给句提示就行,还能在线试玩
本文 机器之心 编辑:rome动动嘴皮子就能生成视频的新研究来了。你输入文字,让 AI 来生成视频,这种想法在以前只出现在人们的想象中,现在,随着技术的发展,这种功能已经实现了。近年来,生成式人工智能在计算机视觉领域引起巨大的关注。随着扩散模型的出现,从文本 Prompt 生成高质量图像,即文本到图像的合成,已经变得非常流行和成功。最近的研究试图通过在视频领域复用文本到图像扩散模型,将其成功扩展...
2023-05-15 12:03:32
60
转载 还瞎问来定夺模型好坏?AGIEval:量化评估GPT等大模型!专为人类考试而生
本文 新智元 编辑:LRS【新智元导读】让AI参加法考、高考、公务员考试的话,能拿几个offer?随着语言模型的能力越来越强,现有的这些评估基准实在有点小儿科了,有些任务的性能都甩了人类一截。通用人工智能(AGI)的一个重要特点是模型具有处理人类水平任务的泛化能力,而依赖于人工数据集的传统基准测试并不能准确表示人类的能力。最近,微软的研究人员发布了一个全新基准AGIEval,专门用于评估基础模...
2023-05-12 11:58:26
56
转载 声称或超越GPT-4!谷歌PaLM 2:全面向ChatGPT微软开炮
明敏 丰色 发自 凹非寺 量子位 | 公众号 QbitAI万众瞩目,谷歌的反击来了。现在,谷歌搜索终于要加入AI对话功能了,排队通道已经开放。当然这还只是第一步。大的还在后面:全新大语言模型PaLM 2正式亮相,谷歌声称它在部分任务超越GPT-4。Bard能力大更新,不用再排队等候,并支持新语言。谷歌版AI办公助手也一并推出,将在Gmail中抢先亮相。谷歌云也上线多个基础大模型,为行业提供更进一...
2023-05-11 11:46:58
142
转载 用图像对齐所有模态,Meta再开源促进AIGC发展!
本文来源 机器之心编辑部Meta 新的开源模型 ImageBind 将多个数据流连接在一起,适用于文本、视频和音频等 6 种模态。在人类的感官中,一张图片可以将很多体验融合到一起,比如一张海滩图片可以让我们想起海浪的声音、沙子的质地、拂面而来的微风,甚至可以激发创作一首诗的灵感。图像的这种「绑定」(binding)属性通过与自身相关的任何感官体验对齐,为学习视觉特征提供了大量监督来源。理想情况下...
2023-05-11 11:46:58
61
转载 借助通用分割大模型!半自动化标注神器,Label-Studio X SAM(附源码)
本文来源编辑 小白学视觉文仅分享,侵删导读数据标注是计算机视觉任务的开始,同时也是最费时费力的环节。今天文章介绍一种半自动化标注神器Label-Studio X SAM,相比传统方法,数据标注的效率得到极大的提升。本文将介绍结合 Label-Studio 和 SAM (Segment Anything) 半自动化标注方案,Point2Lablel:用户只需要在物体的区域内点一个点就能得到物体...
2023-05-09 18:04:39
402
转载 AltDiffusion-m18:18种语言文图生成all in one
来源:新智元 智源研究院【新智元导读】国内首个支持18种语言的文图生成模型AltDiffusion-m18来了。当前,非英文文图生成模型选择有限,用户往往要将 prompt 翻译成英语再输入模型。这样不仅会造成额外的操作负担,并且翻译过程中的语言文化误差,会影响生成图片的准确性。智源研究院 FlagAI 团队首创高效训练方式,使用多语言预训练模型和 Stable Diffusion 结合,训练多...
2023-05-09 18:04:39
44
转载 阿里提出猫头鹰:试图追赶GPT-4的mPLUG-Owl多模态大模型
本文来源 机器之心编辑部纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的 GPT-4 具备读图的多模态能力,但是迟迟未向公众开放体验,于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4 和 LLaVA 问世不久,阿里达摩院便推出 mPLUG-Owl ,一个基于模块化实现的多模态大模型。mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作,延续了 ...
2023-05-08 12:02:09
56
原创 【CVPR 2023的AIGC应用汇总(7)】face相关(换脸/编辑/恢复) diffusion扩散/GAN生成对抗网络方法...
【CVPR 2023的AIGC应用汇总(6)】医学图像diffusion扩散/GAN生成对抗网络【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成,基于diffusion扩散/GAN生成对抗【CVPR 2023的AIGC应用汇总(4)】图像恢复,基于GAN生成对抗/diffusion扩散模型【CVPR 2023的AIGC应用汇总(3)】GAN改进/可控生成的方法10篇【CVPR 202...
2023-05-08 12:02:09
165
转载 促进社区AIGC发展!Stability AI 再开源 RLHF、DeepFloyd IF
本文来源 新智元 编辑:Aeneas 好困【新智元导读】开源先锋StabilityAI一天扔了两枚重磅炸弹:发布史上首个开源RLHF大语言模型,以及像素级图像模型DeepFloyd IF。开源社区狂喜!最近,大名鼎鼎的Stable Diffusion背后的公司,一连整了两个大活。首先,Stability AI重磅发布了世上首个基于RLHF的开源LLM聊天机器人——StableVicuna。St...
2023-05-06 11:56:58
129
原创 【CVPR 2023的AIGC应用汇总(6)】医学图像 中的diffusion扩散/GAN生成对抗网络方法
【CVPR 2023的AIGC应用汇总(1)】图像转换/翻译,基于GAN生成对抗/diffusion扩散模型【CVPR 2023的AIGC应用汇总(2)】可控文生图,基于diffusion扩散模型/GAN生成对抗【CVPR 2023的AIGC应用汇总(3)】GAN改进/可控生成的方法10篇【CVPR 2023的AIGC应用汇总(4)】图像恢复,基于GAN生成对抗/diffusion扩散模型【CVP...
2023-05-05 11:55:56
227
转载 大语言模型排行榜 | Vicuna夺冠,清华ChatGLM进前5!(UC伯克利发布)
本文来源 新智元 编辑:好困【新智元导读】万万没想到,现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!据说,那些闭源模型们很快也会被拉出来溜溜。最近,来自LMSYS Org(UC伯克利主导)的研究人员又搞了个大新闻——大语言模型版排位赛!顾名思义,「LLM排位赛」就是让一群大语言模型随机进行battle,并根据它们的Elo得分进行排名。然后,我们就能一眼看出,某...
2023-05-05 11:55:56
238
转载 RelateAnything:分割之后再识别对象之间关系,赋予 SAM 新技能
本文来源 机器之心编辑部本月初,Meta 推出的「分割一切(Segment Anything Model,SAM)」模型引起了广泛的关注。最近,来自南洋理工大学 MMLab团队、伦敦国王学院和同济大学VisCom 实验室的研究者们联合推出了一款名为 「Relate-Anything-Model(RAM)」的新模型。RAM 模型赋予了 Segment Anything Model(SAM)识别...
2023-05-04 11:58:05
82
转载 【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成,基于diffusion扩散/GAN生成对抗网络方法...
【CVPR 2023的AIGC应用汇总(1)】图像转换/翻译,基于GAN生成对抗/diffusion扩散模型【CVPR 2023的AIGC应用汇总(2)】可控文生图,基于diffusion扩散模型/GAN生成对抗【CVPR 2023的AIGC应用汇总(3)】GAN改进/可控生成的方法10篇【CVPR 2023的AIGC应用汇总(4)】图像恢复,基于GAN生成对抗/diffusion扩散模型1、La...
2023-05-01 15:26:08
107
转载 一文详解Prompt学习和微调(Prompt Learning & Prompt Tuning)
转载自 | PaperWeekly作者 张建伟单位 浙江大学方向 小样本学习、图像分割Self-Attention 和 Transformer 自从问世就成为了自然语言处理领域的新星。得益于全局的注意力机制和并行化的训练,基于 Transformer 的自然语言模型能够方便的编码长距离依赖关系,同时在大规模自然语言数据集上并行训练成为可能。但由于自然语言任务种类繁多,且任务之间的差别不...
2023-05-01 15:26:08
94
原创 【CVPR 2023的AIGC应用汇总(4)】图像恢复,基于GAN生成对抗/diffusion扩散模型方法...
【CVPR 2023的AIGC应用汇总(1)】图像转换/翻译,基于GAN生成对抗/diffusion扩散模型方法【CVPR 2023的AIGC应用汇总(2)】可控文生图,基于diffusion扩散模型/GAN生成对抗方法【CVPR 2023的AIGC应用汇总(3)】GAN改进/可控生成的方法10篇1、Bitstream-Corrupted JPEG Images are Restorable: T...
2023-04-28 12:39:31
806
转载 阿里达摩院杭州DI-Lab诚招博士后 (AI for Time Series方向)
阿里巴巴达摩院:阿里巴巴达摩院决策智能实验室(DI-Lab)致力于开发和运用尖端机器学习和运筹优化技术构建智能决策系统,用于探索未知前沿,降低运营成本,提升业务运营效率。团队成员分布在西雅图、杭州和北京,来自 MIT、Gatech、UCLA、Columbia、清华、北大、上交、浙大等国内外知名高校,团队每年每年发表几十篇AI顶会/刊和获得多次业内冠军/奖项等。实验室依托于在智能时序分析、数据洞察、...
2023-04-28 12:39:31
52
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人