- 博客(3051)
- 资源 (77)
- 收藏
- 关注
转载 教程系列2 | 趋动云『社区项目』一步实现与 AI 对话
上周,我们沉浸于文生图【教程系列1 | 趋动云『社区项目』极速部署 SD WebUI】的奇幻世界,领略了文字转化为视觉的无限乐趣。本周我们继续与 AI 进行对话,探索智能交互的无限魅力!Llama3-8B-Chinese-ChatLlama3-8B-Chinese-Chat 是一个针对中文和英文用户的指令调整语言模型,具有各种能力,如角色扮演和工具使用,建立在 Meta-Llama-3-8B-In...
2024-07-16 12:30:33
11
转载 西工大&西澳大学&同济大学 第一篇图卷积网络在图像复原上综述(论文开源)...
关注公众号,发现CV技术之美本篇分享论文Graph Convolutional Network for Image Restoration: A Survey,由西工大&西澳大学&同济大学共同发布,第一篇图卷积网络在图像复原上综述(论文开源)。作者:程童桐,毕婷婷,吉文,田春伟单位:西北工业大学,西澳大学,同济大学论文链接:https://www.mdpi.com/2227-739...
2024-07-15 18:08:51
23
转载 ECCV 2024|腾讯优图实验室14篇论文入选,含工业缺陷异常检测、图文引导图像编辑、多模态标签等研究方向...
关注公众号,发现CV技术之美近日,ECCV(European Conference on Computer Vision)组委会公布了录用论文名单,共有2395篇论文被录用,录用率27.9%。ECCV,即欧洲计算机视觉国际会议,是计算机视觉领域中最顶级的会议之一,与ICCV和CVPR并称为计算机视觉领域的“三大顶会”。ECCV每两年举行一次,会议内容广泛覆盖了计算机视觉的所有子领域,包括但不限于图...
2024-07-13 22:44:26
114
转载 文末送书 | 清华汪玉教授团队:首部高效模型压缩与设计专著重磅上市
关注公众号,发现CV技术之美汪玉 宁雪妃 著电子工业出版社-博文视点2024-07-019787121480591 定价: 119.00 元新书推荐????今日福利|关于本书|本书系统地介绍了高效模型压缩和模型设计的方法,在编写上兼顾理论和实践。本书主体部分详细介绍了模型压缩的方法论,包括高效模块设计、模型剪枝、模型量化、模型二值化、神经网络架构搜索、知识蒸馏几大部分。另外,简要介绍了定制化硬件加速器...
2024-07-13 22:44:26
21
转载 全职 | 腾讯微信(深圳)招多模态算法工程师
关注公众号,获取更多AI领域发展机会腾讯微信(深圳)招多模态算法工程师,职级:T8,T9,T10,T11。工作内容负责多模态大模型的内容安全领域落地、模型训练和推理等工作,包括但不限于多模态预训练、跨模态生成与检索、多模态对话等业务应用;保持创新的同时将业界SOTA模型在安全场景进行产品化落地。任职要求CV、多模态等相关领域有深入的理解,在其中一个或多个方向有深入的研究经历,且有相关实际项目经验;...
2024-07-10 22:58:09
21
转载 手把手教程 | GPU云上极速部署 SD WebUI
在上周,趋动云新推出的『社区项目』功能,以“一键克隆”的极致便捷与“省时省力”的高效体验,赢得了广大用户的关注。随后,启动趋动云『社区项目』教程系列,旨在从零开始,全方位、手把手地引领您深入探索并玩转这些项目。无论是技术小白还是资深开发者,都能在这系列教程中轻松上手,亲自体验一键克隆的畅快与高效,共同开启技术探索的新篇章!Stable Diffusion web UIStable-diffusio...
2024-07-09 16:33:23
42
转载 CVPR 2024 录用数据出炉!这些方向是大趋势!
一年一度的计算机视觉和模式识别会议(CVPR)一直是 CV 界前沿研究的灯塔。CVPR 2024 录用结果显示,今年共有 2719 篇论文被接收,录用率 23.6%。那么大模型时代,今年的研究主题有哪些变化?最近,乔治亚理工学院计算机学院(College of Computing, Georgia Institute of Technology)对 CVPR 2024 录用数据的统计分析,直观呈现...
2024-07-09 16:33:23
47
转载 厦门大学首发多模态阅读理解新任务: 图文深度融合数据集VEGA
关注公众号,发现CV技术之美介绍多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中,尤其是文档理解领域,模型经常需要处理更为复杂的图文混合输入,这些输入不仅长度更长,而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任...
2024-07-08 12:45:10
30
转载 xLSTM成功杀入医学图像分割领域,取代Mamba成为新SOTA!魔芯科技联合多单位推出...
关注公众号,发现CV技术之美近年来,Mamba作为一种处理长距离依赖关系的计算模块,在医学图像分割领域取得了显著进展。而近期,来自浙江大学,魔芯科技,中科大等单位的研究人员将Mamba替换为xLSTM,提出 xLSTM-UNet(xLSTM-UNet can be an Effective 2D \& 3D Medical Image Segmentation Backbone with ...
2024-07-04 23:06:11
146
转载 科学之路——一项人工智能法案,为何让硅谷陷入恐慌?
关注公众号,发现CV技术之美一项人工智能法案,为何让硅谷陷入恐慌?过去几个月里,硅谷的科技公司们持续发出警告,宣称一项即将通过的法案将摧毁美国在人工智能领域的领导地位。随着人工智能变得越来越复杂,政策制定者们正在采取行动,用来确保这项技术不会产生不可逆转的风险,加州 1047 号提案由此诞生。上个月,加州参议院正式通过了这项提案,该提案将被送交加州众议院进行进一步审议和修改。鉴于加州是目前世界上最...
2024-07-03 12:12:43
166
转载 300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文
关注公众号,发现CV技术之美本文转自机器之心。该文章的第一作者帅欣成,目前在复旦大学FVL实验室攻读博士学位,本科毕业于上海交通大学。他的主要研究方向包括图像和视频编辑以及多模态学习。前言本文提出了解决一般性编辑任务的统一框架!近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图大模型的图像编辑算法进行了总结和回顾。综述涵盖300 多篇相关研究,调研的最新模型截止至今...
2024-07-01 18:13:25
49
转载 100万奖金池,外滩大会Deepfake 攻防挑战赛启动招募
“以AI对抗AI”, 外滩大会·全球 Deepfake 攻防挑战赛启动报名。赛事提供百万级的数据集,针对“AI换脸”的欺诈风险进行攻防实战演练,并设立100万元人民币的奖金池,鼓励推动AI向善的技术人才。Deepfake是“deep learning”(深度学习)和“fake”(伪造)两个单词的结合,指的是基于深度学习算法,从大量的视频和图像数据中学习,伪造出逼真的面部动画和语音。Deepfake...
2024-07-01 18:13:25
56
转载 身手不凡的机器人,开源项目汇总
最初,因隋炀帝思念心切,命工匠按照柳抃的形象制作了木偶机器人,被认为是历史上最早的机器人之一。这些木偶机器人通过精巧设计的机关,能够执行坐、起、拜、伏等动作。如今,随着科技的发展,机器人已经广泛应用于医疗、军事、教育、服务等各个领域,为人类提供更安全、更便捷、更高效的服务。因此,本文整理了一些机器人相关的开源数据集、模型和项目,旨在帮助研究人员更好地开展相关领域的工作。LeRobotLeRobot...
2024-06-30 23:40:10
44
转载 靠Scaling Laws炼出4D版视频生成模型,多伦多大学北交大等携手开源81K高质量数据集...
关注公众号,发现CV技术之美Diffusion4D团队 投稿转自量子位 | 公众号 QbitAI只需几分钟、一张图或一句话,就能完成时空一致的4D内容生成。注意看,这些生成的3D物体,是带有动作变化的那种。也就是在3D物体的基础之上,增加了时间维度的运动变化。这一成果,名为Diffusion4D,来自多伦多大学、北京交通大学、德克萨斯大学奥斯汀分校和剑桥大学团队。具体而言,Diffusion4D整...
2024-06-30 23:40:10
21
转载 虚拟试衣技术发展综述:从应用到开源资源
虚拟试衣是通过虚拟的技术手段,实现用户不用脱去身上衣服,完成变装的效果。最初,起源于换装游戏,随着互联网的普及和电子商务的兴起,消费者对在线购物体验的需求不断增加,虚拟试衣技术因此得到了快速发展。现如今,虚拟试衣技术多应用于:电子商务:为用户提供在线试穿服务,提升购物体验,减少退货率。服装设计:帮助设计师快速试验不同设计方案,降低样品制作成本。游戏和娱乐:在游戏和虚拟现实中为角色定制服装,增强沉浸...
2024-06-28 23:43:42
46
转载 实时 AI 视频生成来了!
关注公众号,发现CV技术之美本文转自机器之心。本周三,新加坡国立大学尤洋团队提出了业内第一种可以实时输出的,基于 DiT 的视频生成方法。该技术名为 Pyramid Attention Broadcast (PAB)。通过减少冗余注意力计算,PAB 实现了高达 21.6 FPS 的帧率和 10.6 倍的加速,同时不会牺牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在内的...
2024-06-27 23:34:37
62
转载 姿态估计开源模型、数据集分享
姿态估计是一种计算机视觉技术,旨在从图像或视频中识别和理解人体的姿势或动作。它涉及检测人体的关键点,如头部、肩膀、手臂、腿部等,并确定它们之间的关系,以推断出人体的姿势或动作。姿态估计因其在各个领域的广泛应用而引起了研究人员的兴趣。如:体育训练分析:可以利用精确的人体姿态追踪,评估运动员的动作准确度,帮助教练进行个性化指导。人机交互:姿态估计使计算机能够解读和响应人类手势,从而实现人与机器之间更直...
2024-06-27 23:34:37
73
转载 超分辨率开源库 GitHub 热门项目分享
超分辨率(Super-Resolution)就是将低分辨率(low resolution)的图像通过算法提升到高分辨率(high resolution)的过程。超分辨率技术在多个领域有广泛应用,包括但不限于以下几个方面:医疗成像:在医学影像中,超分辨率技术可以帮助提高图像质量,使医生能够更清晰地观察和诊断疾病。安全监控:在安防监控系统中,超分辨率技术可以提高监控视频的分辨率,从而更有效地识别和跟踪...
2024-06-26 23:50:22
64
转载 首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!...
关注公众号,发现CV技术之美本文介绍由多伦多大学,北京交通大学,德克萨斯大学奥斯汀分校和剑桥大学团队最新提出的4D生成扩散模型,该方法可以在几分钟之内可以完成时空一致的4D内容生成。Diffusion4D(Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models)整理筛选了约81K个...
2024-06-25 22:25:30
45
转载 ECCV 2024 Workshop 自动驾驶难例场景多模态理解与视频生成征稿与挑战赛火热启动!...
关注公众号,发现CV技术之美ECCV 2024 W-CODA Workshop概述我们将在ECCV 2024会议上举办第一届自动驾驶难例场景多模态理解与视频生成 W-CODA Workshop!本次Workshop旨在研讨当前最先进的自动驾驶技术与完全可靠的智能自动驾驶代理之间的差距。近年来,多模态大模型(如GPT-4V)展示了其在多模态感知与理解方面前所未有的进步。然而,利用MLLMs来应对自动...
2024-06-25 22:25:30
66
转载 武大等开源大幅面高清卫星影像数据集:涵盖21万+地理目标,复杂地理空间场景知识精准生成...
关注公众号,发现CV技术之美武汉大学李彦胜课题组投稿转载自量子位 | 公众号 QbitAIAI卫星影像知识生成模型数据集稀缺的问题,又有新解了。来自武汉大学、上海AI实验室、西工大等9家机构共同推出了该领域的大型数据集,涵盖了21万个地理目标和40万个目标-关系三元组。而且像机场、港口、立交桥等这样复杂地理空间场景,也都包括在了数据集当中。具体来说,该数据集名为RSG,主要面向卫星影像中的目标检...
2024-06-24 14:15:42
26
转载 7000篇顶会论文汇总
2024年6月20日,cvpr2024最佳论文出炉,本次论文可谓是万里挑一。作为计算机视觉领域的顶级学术会议CVPR,每年评选出的一篇或多篇最佳论文,不仅为计算机视觉领域的顶级学术荣誉,更代表了将对未来技术或行业发展产生重要影响的里程碑式研究成果。为了帮助大家对这批计算机领域的重要论文进行复习,我为大家整理了2000年—2024年的CVPR最佳论文合集、7000篇2024年顶会论文汇总、顶会审稿...
2024-06-24 14:15:42
49
转载 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
关注公众号,发现CV技术之美本文转自机器之心。为了实现高精度的区域级多模态理解,本文提出了一种动态分辨率方案来模拟人类视觉认知系统。本文作者来自于中国科学院大学LAMP实验室,其中第一作者赵毓钟是中国科学院大学的2023级博士生,共同一作刘峰是中国科学院大学2020级直博生。他们的主要研究方向是视觉语言模型和视觉目标感知。简介DynRefer 通过模拟人类视觉认知过程,显著提升了区域级多模态识别能...
2024-06-23 23:50:25
21
转载 多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench...
关注公众号,发现CV技术之美引言近期多模态大模型(MLLM)在视觉文本理解领域取得了显著进展,比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey, 闭源模型GPT-4o、Claude等,甚至在某些方面展现了超越人类的能力。然而,当前的评估主要集中在英文和中文的语言环境中,对于更具挑战的多语种环境,研究还相对缺乏。在全球化的今天,多语言环境越来越多地...
2024-06-21 21:29:40
35
转载 项目合作 | 羽毛球识别
关注公众号,发现CV技术之美52CV 的一位粉丝现在正开发一个羽毛球识别的项目,寻求合作伙伴,欢迎感兴趣或者有经验的来联系。基本技术实现服务器端存储历史各大经典羽毛球赛事视频,各类羽毛球教学视频,抖音网红教球视频。(简称为“经典视频集合”)学员或爱好者上传自身打球视频。(简称为“个人视频”)通过对比“经典视频集合”与“个人视频”,自动提取“经典视频集合”中,与学员爱好者动作相似,球路相似,场地位置...
2024-06-21 21:29:40
35
转载 CVPR竞赛冠军方案:复杂场景下的视频对象分割
关注公众号,发现CV技术之美由鹏城实验室、哈工大深圳和University of California at Merced组成的团队在CVPR2024 PVUW比赛的MOSE视频对象分割赛道获得冠军。竞赛及数据集:https://henghuiding.github.io/MOSE/ChallengeCVPR2024技术报告:https://arxiv.org/abs/2406.04600视频对象...
2024-06-20 12:04:39
42
转载 GPT-4o颠覆世界,700篇大模型论文首次公开!
5月中旬,OpenAI向世界揭开了GPT-4o的神秘面纱,这个全能的多模态巨人站在了GPT-4的肩膀上,将人工智能的边界推向了新的高度。为了让大家更好的抓紧大模型机遇,这次我整理了1-4月最新600篇大模型论文、99个大模型微调工具、特邀QS前50博导、大厂算法研究员等多位大牛打造了大模型系列课程,附论文代码讲解,原价666元,现在全部免费领。扫码回复“GPT”领最新600篇GPT论文合集部分授课...
2024-06-20 12:04:39
42
转载 多模态大模型面对误导性问题:看懂图片也会答错,一骗就中招
关注公众号,发现CV技术之美多模态大语言模型(MLLMs)因其在视觉理解和推理方面的突出表现,例如生成详细的图像描述和回答复杂的问题等,逐渐成为近期AI研究的热点。然而,Bunny 团队的最新研究发现,尽管许多MLLMs对视觉内容能够正确理解,但在面对误导性的问题时却容易给出错误答案,如图1所示。团队基于此揭示了一个隐藏现象:MLLMs 在视觉问答上的错误回答,不总是因为性能不足,还可能是由于对误...
2024-06-19 17:28:20
27
转载 CVPR竞赛冠军方案:运动表达引导视频分割方法,代码及技术报告均已开源
关注公众号,发现CV技术之美在CVPR 2024 像素级视频理解(PVUW)挑战赛中,来自塔普智能(Tapall.ai)、南方科技大学、谢菲尔德大学、华威大学的研究团队在运动表达引导视频分割(MeViS)赛道上获得冠军。该团队提出的技术专为解析由自然语言表达引导的视频内容而设计,致力于提高视频分割的准确性和效率。相关技术报告和代码均已开源。竞赛及数据集:https://henghuiding.gi...
2024-06-19 17:28:20
40
转载 智源和港中文联合提出首个多功能3D医学多模态大模型(文本、定位和分割任务)...
关注公众号,发现CV技术之美智源和香港中文大学联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed, 和 M3D-Bench, 从数据集、模型和测评全方面推动 3D 医学图像分析的发展。M3D-Data 是目前最大的 3D 医学图像数据集,包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对),M3D-Seg(150K 3D Mask),M3...
2024-06-18 13:42:49
47
转载 京东健康·全球医疗AI创新大赛开启!32万奖金池等你来拿!
京东健康·全球医疗AI创新大赛是由京东健康发起,以探索医疗行业前沿技术与创新应用为导向、携手产学研各界力量,通过AI创新促进医疗服务行业高质量发展的一场大赛。本次大赛聚焦“睡眠监测智能算法”与“医疗大模型创新应用”两个课题方向,面向全球开放报名,不限年龄、国籍,高等院校、科研单位、企事业单位、个人等,均可报名参赛,大赛于6月17日正式开赛,热切而诚挚的欢迎各位创新者踊跃参与!赛题介绍赛题一睡眠呼吸...
2024-06-18 13:42:49
33
转载 CVPR 2024 | 如何给 NeRF 开透视眼?
关注公众号,发现CV技术之美本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/702702109。本文介绍我们在 CVPR 2024 上的新工作《Structure-Aware Sparse-View X-ray 3D Reconstruction》。本文提出了一种用于稀疏视角下 X 光三维重建(如下边的 GIF 所示)的 NeRF 方法。具体而言,主要做两个任务...
2024-06-17 12:02:34
56
转载 Gemini在大考终于赢了GPT-4o!Jeff Dean连续转发三次!Video-MME首个视频多模态基准来了!...
关注公众号,发现CV技术之美近日,中科大、厦大、港中文等高校联合推出多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。Gemini 1.5 Pro在这份榜单中遥遥领先,证明其在视频理解领域的霸主地位。Video-MME一经推出,更是被谷歌首席科学家Jeff Dean连续转发了三次!目前已有近30万的浏览量,热度很高。GPT-4o的伟大...
2024-06-17 12:02:34
54
转载 CVPR2024 | 视频插帧视觉效果新突破!上海交大提出PerVFI,视频插帧新范式
关注公众号,发现CV技术之美分享一篇来自CVPR2024的视频插帧工作《Perception-Oriented Video Frame Interpolation via Asymmetric Blending》。该论文提出的视频插帧算法PerVFI在视觉效果上实现了新的突破。同时,论文阐述了新的视频插帧范式,有效解决现有插帧算法的痛点。论文地址:https://openaccess.thecvf...
2024-06-15 14:17:41
182
转载 北京大学 | 三维高斯溅射隐写术
关注公众号,发现CV技术之美本篇分享论文GS-Hider: Hiding Messages into 3D Gaussian Splatting,三维高斯溅射隐写术。详细信息如下:论文信息:Xuanyu Zhang, Jiarui Meng, Runyi Li, Zhipei Xu, Yongbing Zhang, Jian Zhang*. GS-Hider: Hiding Messages in...
2024-06-14 12:19:21
71
转载 最强GPT-4o也才刚及格?智源联合多所高校推出首个多任务长视频评测基准MLVU
关注公众号,发现CV技术之美当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。因此,智源联合北邮、北大和浙大等多所高校提出MLVU:首个多任务长视频理解评测基准。MLVU拥有充足且灵活可变的的视频长度、包含多种长视频来源、涵盖多个不同维度的长视频理解任务。通过对20个最新的流行MLLM评测发现,排名第一的GPT-4o的单选正确率...
2024-06-13 13:29:46
65
转载 ClassDiffusion: 使用显式类别引导的一致性个性化生成
关注公众号,发现CV技术之美本篇分享论文ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance,由北交&字节联合提出 ClassDiffusion: 使用显式类别引导的一致性个性化生成。详细信息如下:文章主页: https://classdiffusion.github.io/论文地址...
2024-06-11 15:26:37
47
转载 北大 & 字节 提出 ConBench:揭示 VLM 的不一致性
关注公众号,发现CV技术之美多模态大模型(LVLMs)取得了快速的进展,在处理视觉信息方面展现出了很强的感知和推理能力。然而,当面对不同规模解空间的问题时,LVLMs 在相同知识点上并不总能给出一致的答案,这种答案的不一致性在 LVLMs 中普遍存在,在一定程度上会损害实际的用户体验,然而现有的多模态大模型基准测试却忽视了关于一致性的评价。针对这一问题,北京大学计算机学院联合字节跳动提出了ConB...
2024-06-08 11:08:27
54
转载 6・18,GPU服务商“趋动云”大放送,福利满载,等你解锁!
???????????? 嘿,嘿,嘿!你们准备好了吗?一年一度的 6・18 购物狂欢季又来啦!继去年趋动云(https://growthdata.virtaicloud.com/t/Va)推出了6.18 活动,充值就送好礼!今年继续加码,限时特惠,越充越送,福利多多!这个活动可是不容错过的哦!快来一探究竟吧!赠品实物预览(以实物为准):点击【阅读原文】即刻参与活动,特惠好礼,拿得手软!...
2024-06-08 11:08:27
31
转载 全新Mobile-Agent-v2发布,自动化手机操作助手全面升级!
关注公众号,发现CV技术之美Mobile-Agent 于今年年初发布,凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内,它已经在Github获得了2,000个Star。该系统采用纯视觉方案,通过视觉感知工具和操作工具完成智能体在手机上的操作,无需依赖任何系统级别的UI文件。得益于这种智能体中枢模型的强大,Mobile-Agent实现了即插即用,无需进行额外的训练和...
2024-06-07 12:44:15
129
“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件(请不要下载)
2010-06-12
“中兴捧月”软件测试自动化附件
2010-06-12
支持基本RichText编辑功能的消息应用程序附件
2010-06-09
数学建模个人经验谈共九个部分
2010-05-19
2010成都信息工程学院研究生数模赛题
2010-05-19
经过裁剪预处理的面部表情识别研究用JAFFE数据库
2010-05-12
人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
人脸识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
handwriten digit recognition by combined classifiers
2010-09-25
Automatic visual/IR image registration
2010-09-25
Statistical Pattern Recognition:A Review
2010-09-25
流形学习问题manifold study
2010-06-29
贝叶斯决策理论机器学习数据挖掘
2010-06-29
MathematicalProblemsinImageProcessing
2010-06-25
OpenCV1.0安装文件
2010-06-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人