- 博客(2660)
- 资源 (78)
- 收藏
- 关注
转载 迈向多模态AGI之开放世界目标检测 | 人工智能
作者:王斌 谢春宇 冷大炜引言目标检测是计算机视觉中的一个非常重要的基础任务,与常见的的图像分类/识别任务不同,目标检测需要模型在给出目标的类别之上,进一步给出目标的位置和大小信息,在CV三大任务(识别、检测、分割)中处于承上启下的关键地位。当前大火的多模态GPT4在视觉能力上只具备目标识别的能力,还无法完成更高难度的目标检测任务。而识别出图像或视频中物体的类别、位置和大小信息,是现实生产中众多人...
2023-05-25 16:04:26
6
转载 ICML 2023 | 一个模型解决30+任务 阿里达摩院提出模块化多模态模型mPLUG-2
关注公众号,发现CV技术之美近年来,视觉、语言和多模态预训练逐渐呈现出统一的趋势。对于多模态基础模型,我们希望其不仅能够处理多模态相关任务,还希望其在单模态任务上也具有优异的性能。然而,现有的多模态模型,往往不能很好的平衡模态协作(collaboration)和模态纠缠(entanglement)的问题,从而限制了在各种单模态及跨模态下游任务上的性能。为了解决这一问题,阿里达摩院的研究者提出模块化...
2023-05-25 16:04:26
8
转载 不用RLHF,匹敌GPT-4!Meta重磅发布LIMA 65B,1000个样本性能飞升,LeCun转赞
关注公众号,发现CV技术之美本文转载自新智元,编辑:桃子 好困。RLHF并没有那么重要!Meta最新650亿参数模型LIMA,仅用1000个样本,实现与GPT-4相匹敌的性能。人人都知,让ChatGPT称霸天下的秘密武器,就是人类反馈强化学习(RLHF)。而现在,Meta AI等机构的爆火研究LIMA直接打破这一规则,直言RLHF并没有那么重要!论文一出,直接在AI圈炸了锅!就连LeCun忍不住发...
2023-05-24 22:37:08
9
转载 MICCAI 2023 头影X光图像关键点检测挑战赛
关注公众号,发现CV技术之美▌比赛背景由深圳大学、国立台湾科技大学、深圳大学总医院联合承办,经国际医学图像计算和计算机辅助干预 (Medical Image Computing and Computer Assisted Intervention, MICCAI) 协会主办的"基于头影侧位片X光图像的关键点检测挑战赛 (Cephalometric Landmark Detection in La...
2023-05-24 22:37:08
7
原创 综述 | 基于 Transformer 网络的多模态学习
关注公众号,发现CV技术之美Transformer 网络结构作为一种性能卓越的神经网络学习器,已经在各类机器学习问题中取得了巨大的成功。伴随着近年来多模态应用和多模态大数据的蓬勃发展,基于Transformer 网络的多模态学习已经成为了人工智能领域的前沿热点之一。今天为大家介绍一篇基于Transformer的多模态学习的综述论文“Multimodal Learning with Transfor...
2023-05-22 23:53:37
133
转载 CVPR 2023 所有论文已可下载,获奖候选论文 12篇
关注公众号,发现CV技术之美今年投稿 9155 篇论文,录用 2359 篇论文(录取率25.8%),其中亮点 235篇论文(10%的录用论文,2.6%的已提交论文),获奖候选论文 12篇(占录用论文的0.51%,占已提交论文的0.13%)。▌获奖候选论文1.OmniObject3D: Large Vocabulary 3D Object Dataset for Realistic Percepti...
2023-05-22 23:53:37
43
转载 CVPR 2023 | Collaborative Diffusion 怎样让不同的扩散模型合作?
关注公众号,发现CV技术之美近一两年,扩散模型(diffusion models)展现了强大的生成能力。不同种类的扩散模型各显神通 —— text-to-image模型可以根据文字生成图片,mask-to-image模型可以从分割图生成图片,除此之外还有更多种类的扩散模型,例如生成视频、3D、motion等等。倘若有一种方法让这些pre-trained的扩散模型合作起来,发挥各自的专长,那么我们就...
2023-05-20 23:55:29
17
转载 照片转视频,像航拍一样丝滑,谷歌原班人马打造Zip-NeRF
关注公众号,发现CV技术之美本文转载自机器之心。原班人马打造,2023 年的 NeRF 进步神速。2020 年,加州大学伯克利分校、谷歌的研究者开源了一项 2D 图像转 3D 模型的重要研究 ——NeRF。它可以利用几张静态图像生成多视角的逼真 3D 图像,生成效果非常惊艳:三年之后,这支团队做出了更惊艳的效果:在一项名为「Zip-NeRF」的研究中,他们完整还原了一个家庭的所有场景,就像无人机航...
2023-05-16 22:37:52
32
转载 百度Q1财报发布:文心一言性能提升10倍,大语言模型带来革命性潜力
关注公众号,发现CV技术之美北京时间5月16日,百度(NASDAQ:BIDU,HKEX:9888)发布了截至2023年3月31日的第一季度未经审计的财务报告。第一季度,百度实现营收311亿元,同比增长10%;归属百度的净利润(non-GAAP)达到57亿元,同比大幅增长48%,营收和利润双双超市场预期。百度创始人、董事长兼首席执行官李彦宏表示:“我们相信生成式人工智能和大语言模型为各行各业带来了革...
2023-05-16 22:37:52
16
转载 能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的DetGPT来了
关注公众号,发现CV技术之美本文转自机器之心,作者港科大LMFlow团队 & 港大NLP实验室。一直以来,人类梦想着机器人能够辅助人类处理生活和工作的事情。“请帮我调低空调的温度”,甚至 “请帮我写一个商城网站” 都在近年来的家居助手和 OpenAI 发布的 Copilot 上得以实现。GPT-4 的出现,进一步为我们展示了多模态大模型在视觉理解上的潜力。开源中小模型方面,LLAVA、mi...
2023-05-10 23:59:40
56
转载 最大规模评测!通用AI大模型Segment Anything在医学影像分割的性能究竟如何?
关注公众号,发现CV技术之美今天推荐一篇医学图像分析领域的最新研究成果:深圳大学:倪东教授课题组 论文作者:黄雨灏,杨鑫,刘恋,周涵,常澳,周心睿,陈汝锶,余俊轩,陈炯权,陈超宇,池昊哲,胡歆迪,刘思菁,范登平,董发进#,倪东#研究成果链接:https://arxiv.org/pdf/2304.14660.pdf近半年来,ChatGPT、DALL·E等引发了大规模基础AI模型的狂潮。4月初,M...
2023-05-06 13:41:59
131
转载 图文理解能力强大!多模态对话生成模型:mPLUG-Owl,已开源!
关注公众号,发现CV技术之美miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。论文链接:https://arxiv.org/abs/2304.14178项目链接:https://github.com/X-PLUG/mPLUG-Owl在线dem...
2023-05-05 13:04:29
117
转载 吴恩达联手OpenAI上线免费课程:一个半小时学会ChatGPT Prompt工程
关注公众号,发现CV技术之美本文转载自机器之心,编辑张倩。重要课程,吴恩达亲自授课。ChatGPT 来了,一切变化都快了起来,一些科技公司开始招募「prompt 工程师」。与写代码的传统计算机工程师不同,Prompt 工程师通过向 AI 询问一系列逻辑缜密的问题来测试系统是否存在不合理行为或问题。但具体应该怎么做,一直没有统一的规范,或是成体系的经验。刚刚,吴恩达官宣了一个好消息:他和 OpenA...
2023-05-04 23:58:01
48
原创 超200+篇文献!一文知晓"伪装场景理解"领域近况
关注公众号,发现CV技术之美自2020年伪装目标检测任务被提出后,领域内涌现出多个子任务、榜单性能不断被刷新,2023年的我们如何快速上手伪装场景理解?如何无痛发现最强模型是何方神圣?如何快速抢占下一个论文创新点?小编带你一文知晓伪装场景理解领域最新近况。今天为大家介绍的这篇论文详述了“伪装场景理解”,作者团队通过对 200多篇相关文献进行全面调研、评测,从它们的性能、优点、缺点、复杂性等进行分析...
2023-04-28 14:37:39
65
转载 ChatGPT的跳跃式技术突破!
关注公众号,发现CV技术之美ChatGPT自从发布以来,一直热度不减,围绕它的话题也是持续不断。而ChatGPT 之所以引起这么大的社会反响,不仅仅是因为它作为一个对话机器人,效果比之前的对话机器人好了一大截,还因为它从技术的角度来看,出现了一些跳跃式的技术突破,业界称这种现象为“涌现”。ChatGPT最有代表性的涌现能力是“思维链”。下面我们详细探讨一下。思维链(Chain of Thought...
2023-04-28 14:37:39
36
转载 NTIRE 2023 视频质量评价比赛冠军方案解读
关注公众号,发现CV技术之美近日,CVPR NTIRE 2023 Quality Assessment of Video Enhancement Challenge比赛结果公布,来自大淘宝音视频技术团队的同学组成「TB-VQA」队伍,从37支队伍中脱颖而出,拿下该比赛(唯一赛道)冠军。此次夺冠是团队继MSU 2020和2021世界编码器比赛、CVPR NTIRE 2022压缩视频超分与增强比赛夺魁...
2023-04-27 16:48:25
244
转载 【Segment Any RGBD】帮你分割一切深度图!
关注公众号,发现CV技术之美本月初,Meta推出的一款可以【分割一切】的模型Segment Anything Model (SAM) 已经引起了广泛的关注。今天,我们很荣幸向大家介绍一款名为“Segment Any RGBD(SAD)”的机器学习模型。与以往所有使用SAM的工具的不同之处在于,SAD读入的图片可以是经过渲染之后的深度图,让SAM直接根据几何信息来分割图像。该项目是由Visual I...
2023-04-27 16:48:25
121
转载 【Relate-Anything】来了!帮你搞定一切关系!
关注公众号,发现CV技术之美本月初,Meta推出的一款可以【分割一切】的模型已经引起了广泛的关注。今天,我们很荣幸向大家介绍一款名为“Relate-Anything-Model(RAM)”的机器学习模型。它赋予了Segment Anything Model(SAM)识别不同视觉概念之间的各种视觉关系的能力。该模型由南洋理工大学MMLab团队和伦敦国王学院和同济大学的VisCom实验室的同学利用闲暇...
2023-04-25 13:03:37
82
转载 会议征稿丨计算机领域多主题征稿中【IEEE出版 | 往届EI已成功检索】
无论是保研申博还是求职晋升,知识储备与实践经历上的深耕不可或缺!如果你也有以下需求,那么成功发表一篇学术论文是十分重要。☑升学/毕业需求:硕博毕业、考研/保研、申博、申请奖学金☑职称晋升、评奖评优:高校教师、研究员、工程师、专家教授,跨行拿高薪☑在职人员:提高个人竞争力、学术影响力,升职加薪等☑基金、课题申报:教育、科技基金项目(国家级省级)、研究课第六届计算机信息科学与应用技术国际学术会...
2023-04-25 13:03:37
82
转载 啦啦啦,我是 Paper 搬运小行家,每天CV论文打包送到家~
关注公众号,发现CV技术之美前几天我把收集分类的CVPR 2023的论文(现已经更新到总计772篇,占总数32.7%)下载打包分享跟大家:CVPR 2023 论文打包下载~(持续更新中)有粉丝提醒,百度网盘速度太慢了。。。。是的,如果你没有开会员,下载6G的论文那真的很痛苦。这位粉丝建议在阿里云盘分享,下载更友好。这两天我试用了一下,的确很Nice!不限速的感觉真的很美好!于是,我把CVPR 20...
2023-04-25 13:03:37
226
转载 一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
关注公众号,发现CV技术之美本文转载自机器之心。CV 领域已经卷到了一个新的高度。本月初,Meta 发布「分割一切」AI 模型 ——Segment Anything Model(SAM)。SAM 被认为是一个通用的图像分割基础模型,它学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,包括在训练过程中没有遇到过的物体和图像类型。这种「零样本迁移」的能力令人惊叹,甚至有人称 C...
2023-04-24 23:57:58
102
转载 CVPR 2023 论文打包下载~(持续更新中)
关注公众号,发现CV技术之美计算机视觉领域顶会CVPR 2023 的论文,官方还没有公开。不过已经有大量录用论文在arxiv上公开了。CV君一直在收集、分类整理,项目在这里:https://github.com/52CV/CVPR-2023-Papers目前已经整理了近800篇,其中751篇论文可下载(占录用总数2360的31.8%),今天CV君将其一一下载并全部打包,供52CV的粉丝们快捷下载(...
2023-04-23 12:16:40
197
转载 CVPR-2023 | FFN: 针对视频识别的通用Once-For-All框架
关注公众号,发现CV技术之美本文为粉丝投稿,原链接:https://zhuanlan.zhihu.com/p/624090867。投稿邮箱:amos@52cv.net本文主要介绍我们被CVPR-2023会议录用的一篇文章:Frame Flexible Network。■ https://arxiv.org/abs/2303.14817相比于传统视频识别对不同帧数输入的分别训练,我们提供了一种解决方...
2023-04-23 12:16:40
50
转载 MICCAI23 FLARE邀您一起打造腹部泛癌CT分割Foundation Models
关注公众号,发现CV技术之美腹部器官是相当常见的患癌部位,例如结直肠癌和胰腺癌,分别位列癌症死亡率排名的第二位和第三位。Computed tomography(CT)成像可以为医生提供重要的诊断信息,在临床腹部疾病诊疗中被广泛使用。为精准地做出诊断,临床实践中需要通过图像分割来明确病灶及其与周围器官的关系,手工分割非常耗时耗力,而且有较大的组内和组间差异性。AI的发展有望将这个过程变得自动化,大幅...
2023-04-23 12:16:40
56
转载 CVPR2023 Highlight | Side Adapter Network – 极致轻薄却性能强劲的开放词汇语义分割器...
关注公众号,发现CV技术之美要点:仅需要8M额外的训练参数,就可以利用冻结的CLIP模型实现15帧每秒的开放词汇语义分割,同时性能相较STOA大幅度提升。Paper Link: https://arxiv.org/pdf/2302.12242Project Page: https://mendelxu.github.io/SANHugging Face: Hugging Face – The A...
2023-04-21 18:32:49
121
转载 MICCAI 2023 肝脏病变诊断挑战赛 (奖金丰厚)
关注公众号,发现CV技术之美比赛背景由深睿医疗、香港大学、宁波市医疗中心李惠利医院联合承办,经国际医学图像计算和计算机辅助干预 (Medical Image Computing and Computer Assisted Intervention, MICCAI) 协会主办的"基于多期相磁共振成像的肝脏病变诊断挑战赛 (Liver Lesion Diagnosis Challenge on Mul...
2023-04-21 18:32:49
125
原创 当AIGC遇见灌篮高手,一秒钟让动漫/艺术人物在虚拟世界中重现
关注公众号,发现CV技术之美随着《灌篮高手》电影版的上映,笔者作为粉丝,也是关注AIGC科技领域的工作者,思考着如何让经典的动漫人物灵活地出现在AIGC世界里。恰好上周,通过朋友的介绍,我了解到一个工具:InsightFaceSwap,来自于GitHub上知名人脸开源项目InsightFace。这个工具与Midjourney一样托管在Discord,通过特定的斜杠命令可以用来给Midjourney...
2023-04-20 12:19:40
113
转载 AI解读清明上河图--Caption Anything 细粒度可控的图像描述
关注公众号,发现CV技术之美清明上河图近日南方科技大学和腾讯ARC Lab开源了一款交互式图像描述工具, 基于Segment Anything, BLIP-2 Captioning和chatGPT实现, 通过视觉控制(鼠标点击)获取特定区域的object, 并以多样化的语言风格描述出来.传统图像描述或密集描述通常以解析全图为目的, 如果遇到清明上河图等场景丰富且object交互特别复杂的图像, 一...
2023-04-20 12:19:40
505
转载 Segment-and-Track Anything!视频版SAM来了,分割/跟踪/编辑一切,现已开源!
关注公众号,发现CV技术之美Meta AI的SAM「分割一切」模型展现了强大的图像分割能力,但缺乏对视频数据的支持。近期,浙江大学ReLER实验室的科研人员在最新开源的SAM-Track项目中,解锁了SAM的视频分割能力,即:分割并跟踪一切(Segment-and-track anything,SAM-track)。SAM-Track在单卡上即可支持各种时空场景中的目标分割和跟踪,包括街景、AR、...
2023-04-20 12:19:40
897
转载 从Blip2到Segment Anything视觉语义金字塔+ChatGPT= 把图片变文本段落, 8G显存即可Run...
关注公众号,发现CV技术之美8G GPU显存即可以运行Twitter链接:https://twitter.com/awinyimgprocess/status/1646225454599372800?s=46&t=HvOe9T2n35iFuCHP5aIHpQ代码链接:https://github.com/showlab/Image2Paragraph https:// 01...
2023-04-17 23:47:45
76
原创 SAM 模型真的是强悍到可以“分割一切”了吗?
关注公众号,发现CV技术之美上周,Meta AI发布了 Segment Anything Model(SAM)—— 第一个图像分割基础模型。很多计算机视觉从业者惊呼“这下CV真的不存在了,快跑!”。但是SAM 模型真的是强悍到可以“分割一切”了吗?它在哪些场景或任务中还不能较好地驾驭呢?研究社区已经有一些相关工作对这一问题进行探索,今天向大家介绍一篇昨天刚出的技术报告:SAM Struggles ...
2023-04-14 15:03:45
1018
原创 我在Github上建了一个项目快1.2K stars了,你应该也需要!
关注公众号,发现CV技术之美综述论文在学术研究中具有重要的地位。它们对某一领域的核心技术、关键问题、研究现状和发展趋势进行全面、深入的分析,以便读者能够迅速了解某个领域的基本概念、主要方法和技术。对于计算机视觉领域来说,综述论文能够帮助研究者和开发者更高效地了解最新技术和应用,从而有针对性地展开科研和技术开发。所以从2021年开始,CV君就在Github建立了一个收集综述论文的项目,几乎每周都更新...
2023-04-14 15:03:45
86
转载 CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!
关注公众号,发现CV技术之美本文为粉丝投稿,作者王淏辰,原文链接:https://zhuanlan.zhihu.com/p/621566617论文概况论文标题:Hard Patches Mining for Masked Image Modeling录用信息:CVPR 2023 ,https://arxiv.org/abs/2304.05919代码开源:https://github.com/Hao...
2023-04-13 22:05:19
135
转载 芯片是如何为ChatGPT提供算力的?怪不得地球都容不下它了
关注公众号,发现CV技术之美近日,ChatGPT因大规模封号及关闭Plus付费会员的申请引发大家热议。有网友说这是因为计算资源不够了,已经不单是靠钱能解决得了的问题,地球上已经没有足够的算力来满足ChatGPT的运行需求了。AI的发展真的会被算力所限制吗?它和芯片又有怎样的关系?01芯片:算力决定智力AI的“三驾马车”是数据、算法和算力。我们将数据送入AI算法,由算法学习数据中的规律,这意味着要进...
2023-04-13 22:05:19
247
转载 华为诺亚方舟实验室招聘自动驾驶NeRF算法实习生
关注公众号,获取更多AI领域发展机会关于我们华为诺亚方舟实验室属于2012实验室中央研究院,是世界领先的AI实验室。我们以长期的、有影响力的研究为驱动,致力于推动人工智能领域技术的创新和发展,并为华为的产品和服务提供技术支持。团队成员主要由国内外一流高校的业界知名技术专家和资深算法工程师组成,积累了大量的核心技术与经验。我们注重算法研究与业务落地并行,每年在相关领域多个顶级会议发表学术论文,并在实...
2023-04-11 22:13:10
95
转载 CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey...
关注公众号,发现CV技术之美本文转自机器之心。美图影像研究院(MT Lab)与中国科学院大学突破性地提出正则化方法 DropKey,用于缓解 Vision Transformer 中的过拟合问题。该方法通过在注意力计算阶段随机 drop 部分 Key 以鼓励网络捕获目标对象的全局信息,从而避免了由过于聚焦局部信息所引发的模型偏置问题,继而提升了基于 Transformer 的视觉类算法的精度。该论...
2023-04-11 22:13:10
111
转载 真正的包罗“万”象!上海AI实验室、港中文等提出V3Det目标检测数据集,含有13029个类别!...
关注公众号,发现CV技术之美介绍一篇今天新出的文章,来自上海人工智能实验室和香港中文大学的学者提出了一个海量类别的目标检测数据集V3Det,总类别数达到13029!▌V3Det: Vast Vocabulary Visual Detection Dataset论文作者:Jiaqi Wang,Pan Zhang,Tao Chu,Yuhang Cao,Yujie Zhou,Tong Wu,Bin Wa...
2023-04-10 23:33:32
40
转载 CVPR 2023 深挖无标签数据价值!自监督学习框架SOLIDER:用于以人为中心的视觉...
关注公众号,发现CV技术之美 SOLIDER 是 CVPR 2023 录用的一篇来自于阿里达摩院的工作,文章全名叫做Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks。它是一个专门用于支持各种人体任务的视觉预训练模型。在现...
2023-04-08 15:04:01
197
转载 YOLOv8 全家桶再迎新成员!新增Pose Estimation模型!
关注公众号,发现CV技术之美不知不觉间,YOLOv8已经发布三个月了,等待中的YOLOv8论文没来,昨天官方默默又加了新模型:姿态估计。说好的"目标检测"工业界标杆,正向着“CV全家桶”阔步向前。现在你可以用YOLOv8做目标检测、实例分割、图像分类、目标跟踪、姿态估计了,也许还有更多惊喜在后面。要想使用最新的姿态估计功能,你需要更新到最新版的YOLOv8:pipinstall--upgrad...
2023-04-07 23:43:49
146
转载 综述导读:深度学习驱动下的相机标定技术
关注公众号,发现CV技术之美本文为粉丝投稿,欢迎更多最新CV论文解读投稿amos@52cv.net。原文链接:https://zhuanlan.zhihu.com/p/619217025相机标定在计算机视觉和机器人等领域中占据举足轻重的地位,它为后续场景理解及决策推断提供了标准化的成像空间和精准的几何先验。然而,传统的相机标定技术常常依赖于繁琐的人工干预和特定的场景假设,因此难以灵活拓展至不同的相...
2023-04-07 23:43:49
83
“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件(请不要下载)
2010-06-12
“中兴捧月”软件测试自动化附件
2010-06-12
支持基本RichText编辑功能的消息应用程序附件
2010-06-09
数学建模个人经验谈共九个部分
2010-05-19
2010成都信息工程学院研究生数模赛题
2010-05-19
经过裁剪预处理的面部表情识别研究用JAFFE数据库
2010-05-12
人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
人脸识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
handwriten digit recognition by combined classifiers
2010-09-25
Automatic visual/IR image registration
2010-09-25
Statistical Pattern Recognition:A Review
2010-09-25
流形学习问题manifold study
2010-06-29
贝叶斯决策理论机器学习数据挖掘
2010-06-29
MathematicalProblemsinImageProcessing
2010-06-25
OpenCV1.0安装文件
2010-06-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人