- 博客(414)
- 资源 (3)
- 收藏
- 关注
原创 OpenCV 4.4 发布!SIFT移到主库,新增YOLOv4 和 EfficientDet 推断支持
OpenCV 2020 夏季版如约而至,收录了不少State-of-the-art 和经典算法,我们一起来看看吧!历史性重大更新!SIFT算法因专利到期,成为公有技术,其OpenCV实现...
2020-07-20 23:48:58 2675 1
原创 港中文-商汤OpenMMLab开源全景图!
OpenMMLab 为香港中文大学-商汤科技联合实验室MMLab开源的算法平台,不到两年时间,已经包含众多 SOTA 计算机视觉算法。OpenMMLab 在Github上不是一个单独...
2020-07-14 23:15:55 10559
原创 ECCV 2020 Oral 论文汇总!
ECCV 2020论文已公布,本届 ECCV 共收到有效投稿5025篇,接收1361篇,其中Oral论文 104 篇,仅占 2%。本文汇总截止今日所有Oral 论文,其中已经公布完整论文...
2020-07-07 17:08:16 8403
转载 华科&华为发布首款基于国产芯片适配的多模态大模型“PDF悟空”,解析长文档多模态数据能力 SOTA...
关注公众号,发现CV技术之美2024年10月,华中科技大学白翔团队与华为研究人员作,推出了基于国产芯片的多模态文档大模型PDF-WuKong。这一创新成果针对复杂多页PDF文档问答场景,提出了两项关键技术:端到端稀疏采样机制和多页PDF问答高质量数据生成方法。这些技术突破使得输入长度有限的多模态大模型能够有效处理理论上无限长的PDF文档,实现深度理解和精准问答。PDF-WuKong不仅解决了现有多...
2024-10-12 11:41:11 83
转载 行人重识别与人群计数数据集大盘点:推动智能监控研究的利器
关注公众号,发现CV技术之美本文转自趋动云。行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。本文将分享一些行人重...
2024-08-30 17:37:40 157
转载 迈向多图长序列理解,阿里开源多模态大模型 mPLUG-Owl3
关注公众号,发现CV技术之美多模态多轮对话场景长视频理解场景阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式,到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯,再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。尽管近年包括mPLUG-Owl在内的主流多模态大模型...
2024-08-14 11:29:14 171
转载 TPAMI 2024|DeepM2CDL:基于层级式多尺度卷积字典的多模态图像修复与融合网络
关注公众号,发现CV技术之美本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/701844704。本文介绍了北京航空航天大学徐迈教授课题组最新发表于IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI 2024)上的工作“DeepM2CDL: Deep Multi-scale M...
2024-06-06 18:00:07 515
转载 字节、华师、华科联合提出TextSquare,8B参数量的文字多模态大模型指标逼近GPT4V...
关注公众号,发现CV技术之美引言近期多模态大模型(MLLM)在文本中心的VQA领域取得了显著进展,尤其是多个闭源的例如GPT4V和Gemini,甚至在某些方面展现了超越人类的能力。但是开源模型的性能还远远落后于闭源模型,最近许多开创性的研究例如MonKey、LLaVAR、TG-Doc、ShareGPT4V等已开始关注指令微调数据不足的问题,尽管这些努力取得了显著的效果,但仍存在一些问题,图像描述数...
2024-04-25 11:39:43 102
转载 第七届世界智能大会·中国华录杯数据湖算法大赛开启招募
第七届世界智能大会中国华录杯·数据湖算法大赛开启招募由天津市委网信办、天津市工业和信息化局、天津市津南区人民政府主办,北京易华录信息技术股份有限公司、天津华易智诚科技发展有限公司承办的“第七届世界智能大会·中国华录杯数据湖算法大赛”开启招募。本次大赛紧紧围绕数据“收、存、治、用、易”为理念,结合智慧城市真实场景,赛题覆盖灾备、城市建设、交通、数字技能应用等多个领域,旨在挑选出更为优秀的数据挖掘方式...
2024-02-02 12:37:31 189
转载 AI视频生成哪家强?一键安装 VBench,测一测就知道!
关注公众号,发现CV技术之美VBench是什么?AI视频生成这块儿,最近可真是火得不得了。这几个月以来,好几个视频生成模型相继亮相。各个高校实验室、互联网巨头AI Lab、创业公司纷纷加入了AI视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM等视频生成模型让人眼前一亮。随着AI视频生成技术的快速发展,大家都...
2024-01-22 11:40:44 299
原创 YOLOv8 benchmark:一行命令测试你的模型怎么跑更快
关注公众号,发现CV技术之美YOLO系算法之所以在工业界受到追捧,并不单是因为精度高、速度快,可以很方便的开发和部署一直是一个重要原因。YOLOv8用PyTorch开发,但其模型可以很方便地转为各种主流深度学习框架的格式,方便用户在不同场景选择更适合和高效的方案。YOlOv8支持的导出格式:当你在部署模型时,硬件确定好后,选择哪种推理方式?YOLOv8 benchmark 可以一行命令帮你选择。最...
2023-04-12 20:10:02 916
原创 我试用一下YOLOv8中的跟踪算法
关注公众号,发现CV技术之美YOLOv8已经加入了两个跟踪算法,方便对目标检测和分割的结果进行跟踪,可以直接在命令行使用,当然也可以用Python代码调用,非常方便。以下是相关特性:这两个跟踪算法是 BoT-SORT(https://github.com/NirAharon/BoT-SORT,目前在MOT17数据集上排名第二)和 ByteTrack(https://github.com/ifzha...
2023-04-11 23:57:10 2224 2
原创 YOLOv8 全家桶再迎新成员!新增Pose Estimation模型!
关注公众号,发现CV技术之美不知不觉间,YOLOv8已经发布三个月了,等待中的YOLOv8论文没来,昨天官方默默又加了新模型:姿态估计。说好的"目标检测"工业界标杆,正向着“CV全家桶”阔步向前。现在你可以用YOLOv8做目标检测、实例分割、图像分类、目标跟踪、姿态估计了,也许还有更多惊喜在后面。要想使用最新的姿态估计功能,你需要更新到最新版的YOLOv8:pipinstall--upgrad...
2023-04-07 12:07:43 3169
原创 OpenCV 4.7 QR码检测解码性能提升,超越微信之前开源的
关注公众号,发现CV技术之美新版 OpenCV 4.7 声称改进了 QR 码的检测解码性能,而且官方开源了 QR 检测的 Benchmark,今天就尝尝鲜,看看它到底能不能打。测试用数据集来自 BoofCV,下载后解压,如图:下面是该数据集QR码的示例,感觉还是蛮有难度的:使用 OpenCV 4.7自带脚本配置好新版 OpenCV-Python:★从OpenCV官方Github下载测试程序:ht...
2022-12-30 17:31:36 1915
转载 OpenCV 4.7 版本发布
关注公众号,发现CV技术之美一如既往,OpenCV在新年来临之际,刚刚更新了小版本,来到了4.7版。除了继续对DNN模块、算法加速优化外,算法家族也有了新成员。下文来自:https://github.com/opencv/opencv/wiki/ChangeLog#version470Highlights of this release:DNN模块改进:New ONNXlayers 增加了新的...
2022-12-29 11:45:27 874
转载 算法训练好了,怎么部署更简单、高效?FastDeploy来了!
人工智能产业应用发展的越来越快,开发者需要面对的适配部署工作也越来越复杂。层出不穷的算法模型、各种架构的AI硬件、不同场景的部署需求、不同操作系统和开发语言,为AI开发者项目落地带来极大的挑战。为了解决AI部署落地难题,我们发布了新一代面向产业实践的推理部署工具FastDeploy。FastDeploy旨在为AI开发者提供模型部署最优解,具备全场景、简单易用、极致高效三大特点(下文将详细解读)。开...
2022-12-14 11:25:50 584
转载 首次不依赖生成模型,一句话让AI修图!
关注公众号,发现CV技术之美本篇转自机器之心。2022 年是人工智能生成内容(AI Generated Content,AIGC)爆发的一年,其中一个热门方向就是通过文字描述(text prompt)来对图片进行编辑。已有方法通常需要依赖在大规模数据集上训练的生成模型,不仅数据采集和训练成本高昂,且会导致模型尺寸较大。这些因素给技术落地于实际开发和应用带来了较高的门槛,限制了 AIGC 的发展和创...
2022-12-14 11:25:50 237
转载 【强烈推荐】YOLOv7部署加速590%,BERT部署加速622%,这款开源自动化压缩工具必须收藏!
导读众所周知,计算机视觉技术(CV)是企业人工智能应用比重最高的领域之一。为降低企业成本,工程师们一直在探索各类模型压缩技术,来产出“更准、更小、更快”的AI模型部署落地。而在自然语言处理领域(NLP)中,随着模型精度的不断提升,模型的规模也越来越大,例如以BERT、GPT为代表的预训练模型等,这成为企业NLP模型部署落地的拦路虎。本文为大家介绍一个低成本、高收益的AI模型自动压缩工具(AC...
2022-11-04 13:30:07 506
转载 【强烈推荐】YOLOv7部署加速590%,BERT部署加速622%,这款开源自动化压缩工具必须收藏!...
导读众所周知,计算机视觉技术(CV)是企业人工智能应用比重最高的领域之一。为降低企业成本,工程师们一直在探索各类模型压缩技术,来产出“更准、更小、更快”的AI模型部署落地。而在自然语言处理领域(NLP)中,随着模型精度的不断提升,模型的规模也越来越大,例如以BERT、GPT为代表的预训练模型等,这成为企业NLP模型部署落地的拦路虎。本文为大家介绍一个低成本、高收益的AI模型自动压缩工具(AC...
2022-11-04 13:30:07 584
转载 ECCV 2022 | 谷歌提出Data-free NAS,网络搜索仅需一个预训练模型
关注公众号,发现CV技术之美本文转载自机器之心。神经网络架构搜索(NAS) 自 2016 年提出以来就广受关注,很多工作通过设计搜索空间,提升搜索算法等提升 NAS 的精度。今天这篇文章主要研究如何将 NAS 用于数据缺失的情况,文中提出 data-free NAS,该架构仅需要一个预训练模型,就可以自动进行网络搜索。目前该方法主要研究图片领域。论文地址: https://arxiv.org/ab...
2022-11-03 23:54:06 146
转载 炸裂!PDF转Word彻底告别收费时代,这款OCR开源神器要逆天!
关注公众号,发现CV技术之美1.导读随着企业数字化进程不断加速,PDF转Word的功能、纸质文本的电子化存储、文件复原与二次编辑、信息检索等应用都有着强烈的企业需求。目前市面上已有一些软件,但普遍需要繁琐的安装注册操作,大多还存在额度限制。此外,最终转换效果也依赖于版面形态,无法做到针对性适配。针对社区开发者迫切的需求,飞桨社区开发者吴泓晋(GitHubID:whjdark)基于最新发布的PP-S...
2022-10-20 19:36:10 671
转载 挡不住了!扩散模型只用文字就能PS照片了
关注公众号,发现CV技术之美本文转自机器之心。甲方:「我想让这只小狗坐下。」AI:安排!动动嘴皮子就能把图改好是甲方和乙方的共同愿望,但通常只有乙方才知道其中的酸楚。如今,AI 却向这个高难度问题发起了挑战。在一篇 10 月 17 日上传到 arXiv 的论文中,来自谷歌研究院、以色列理工学院、以色列魏茨曼科学研究所的研究者介绍了一种基于扩散模型的真实图像编辑方法——Imagic,只用文字就能实现...
2022-10-19 23:17:56 196
转载 比标准Attention快197倍!Meta推出多头注意力机制“九头蛇”
本文转载自量子位。丰色 发自 凹非寺量子位 | 公众号 QbitAI尽管Transformer已经开始在诸多视觉任务上“大展身手”,但还有一个问题。那就是在处理大图像上计算比较费劲。比如面对一个1080p的图时,它会有超过60%的计算量都耗费在了创建和应用注意矩阵上。究其原因,主要是因为自注意力头的数量是token的平方,而token的数量又与图形大小呈二次方的关系。那能怎么办呢?好消息是——现在...
2022-09-22 12:15:33 164
转载 7199元起,英伟达RTX 40系显卡终于来了:基础性能翻倍,光追翻4倍
本文转载自机器之心,编辑:泽南、杜伟。最高端的 RTX4090 性价比最高,你没想到吧?虽然因为产品太贵而被吐槽,但提起最强 AI 芯片、高端游戏 GPU,人们还是首先要看英伟达。9 月 20 日晚,GTC 大会在线上召开,万众期待的 RTX 40 系列显卡终于正式发布了。与以往稍有不同,这场重要的 Keynote 显得朴实无华而且「简短」,黄仁勋直接站在空旷的元宇宙里开讲:一个半小时收工。在这场...
2022-09-21 17:30:00 330
转载 胡渊鸣:import一个“太极”库,让Python代码提速100倍!
本文转载自量子位。丰色 发自 凹非寺量子位 | 公众号 QbitAI众所周知,Python的简单和易读性是靠牺牲性能为代价的——尤其是在计算密集的情况下,比如多重for循环。不过现在,大佬胡渊鸣说了:只需import 一个叫做“Taichi”的库,就可以把代码速度提升100倍!不信?来看三个例子。计算素数的个数,速度x120第一个例子非常非常简单,求所有小于给定正整数N的素数。标准答案如下:我们将...
2022-09-13 22:22:34 112
转载 字节&NUS开源TranSVAE:基于生成模型的视频无监督域适应框架
关注公众号,发现CV技术之美论文标题:Unsupervised Video Domain Adaptation: A Disentanglement Perspective机构:字节跳动AI Lab,新加坡国立大学论文链接:https://arxiv.org/abs/2208.07365项目主页:https://ldkong.com/TranSVAE开源代码:https://github.com/...
2022-08-16 23:44:04 160
转载 CVPR 2022 | 将X光图片用于垃圾分割,港中大(深圳)探索大规模智能垃圾分类
关注公众号,发现CV技术之美本文转载自机器之心,作者李易寒。研究者表示,这一工作有望让大规模的智能垃圾分类检查成为可能,提升垃圾分类回收的效率,减少环境污染。近些年来,社会的发展带来了生活垃圾的爆发性增长,实行垃圾分类既可以减少对自然环境的破坏,同时对垃圾中的可回收资源进行回收再利用,也带来更大经济效益。垃圾分类的的检查工作是其中的重要一环,只有正确的分类才能提升回收效率...
2022-08-06 23:51:46 327 1
转载 【项目合作】移动端机器视觉"数钢筋"
关注公众号,发现CV技术之美「公司介绍」鱼泡网,成都鱼泡科技有限公司成立于2017年,位于成都高新区。作为工程(建筑、装修)行业内优秀的互联网+人力资源服务商,服务网络已覆盖全国大部分地区。「需求说明」需要移动端接入参考:DataFountain新上计算机视觉比赛-20万巨奖数钢筋https://github.com/spytensor/detect_steel_bar...
2022-08-02 14:01:00 203
原创 CVPR 2022 基于EM算法的视频冗余信息去除框架,可大幅提升VOS任务的推理速度
关注公众号,发现CV技术之美本文是 CVPR 2022 的一篇文章『SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-Maximization』,探讨了如何利用帧间冗余以及帧内冗余来加速视频实例分割(Video Object Segmentation...
2022-08-01 17:10:14 1138
转载 【项目合作】iOS移动端 人脸活照片
关注公众号,发现CV技术之美52CV 的一位粉丝现在正寻找活照片项目开发的合作伙伴。活照片项目通过获取移动端手机摄像头数据,然后通过面部识别,让一幅静态绘画图片动起来;类似软件Avatarify、蚂蚁呀嘿、facemore等。部署环境移动端iOS手机落地;只需要解决底层算法和算法工程化问题,上层业务不需要处理;参考资料https://developer.aliyun.co...
2022-07-29 18:06:27 252
转载 给1万帧视频做目标分割,显存占用还不到1.4GB,代码已开源 | ECCV 2022
明敏 发自 凹非寺量子位 | 公众号 QbitAI咦,怎么好好的藤原千花,突然变成了“高温红色版”?这大紫手,难道是灭霸在世??如果你以为上面的这些效果只是对物体后期上色了,那还真是被AI给骗到了。这些奇怪的颜色,其实是对视频对象分割的表示。但u1s1,这效果还真是让人一时间分辨不出。无论是萌妹子飞舞的发丝:还是发生形状改变的毛巾、物体之间来回遮挡:AI对目标的分割都称得...
2022-07-25 23:20:28 144
转载 一番实验后,有关Batch Size的玄学被打破了
关注公众号,发现CV技术之美本文转自机器之心。有关 batch size 的设置范围,其实不必那么拘谨。我们知道,batch size 决定了深度学习训练过程中,完成每个 epoch 所需的时间和每次迭代(iteration)之间梯度的平滑程度。batch size 越大,训练速度则越快,内存占用更大,但收敛变慢。又有一些理论说,GPU 对 2 的幂次的 batch 可以...
2022-07-11 22:47:13 113
转载 零样本学习,大幅减少人工标注!马普所和北邮提出富含视觉信息的类别语义嵌入(CVPR 2022)...
关注公众号,发现CV技术之美本文转自机器之心,作者北京邮电大学、马普所。来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络,提高了类别嵌入在视觉空间的完备性,对零样本学习中类别之间的知识转移有重要促进作用。零样本学习旨在模仿人类的推理过程,利用可见类别的知识,对没有训练样本的不可见类别进行识别。类别嵌入(class embeddings)是描述类别语义和视觉特征...
2022-06-29 23:53:04 357 2
转载 CVPR再度上演抄袭大戏!IBM中稿论文被指照搬自己承办竞赛第二名的idea
关注公众号,发现CV技术之美本文转载自新智元,编辑:拉燕 好困【导读】CVPR再曝抄袭门!这次是「大厂直抄,很会包装」。IBM,在?来解释解释?一波未平,一波又起,CVPR 2022又被曝出论文抄袭!这两天,来自中国的研究团队发现,自己去年参加ICDAR竞赛的idea,竟然被IBM拿去投中了今年的CVPR。而这件事最讽刺的一点在于,ICDAR 2021正是由IBM自己承办...
2022-06-28 23:32:35 191
转载 「超级云讲堂」第49期:大规模并行分布式群体智能优化
“在小说《蚂蚁帝国》里,褐蚁联邦致力于在战争中获得胜利,以成为蚂蚁世界甚至整个地球的霸主。书中,这种随处可见的微小昆虫进化出了可以和人类社会相提并论的文明,并与人类开展了一场惊心动魄的争锋对决。文学作品虽然是虚构的,但蚂蚁、蜜蜂等生物的社会化程度确实令人吃惊:没有领导,没有指挥官,却分工有序,遵循简单的规则经验却足以应对复杂的现实环境。后来,科学家们通过对蚂蚁、蜜蜂等社会...
2022-06-27 18:09:11 278
转载 一行代码完成模型训练,30倍加速,3毫秒急速识别,超强图像分类算法开源!...
人脸、车辆、人体属性、卡证、交通标识等经典图像识别能力,在我们当前数字化工作及生活中发挥着极其重要的作用。业内也不乏顶尖公司提供的可直接调用的API、SDK,但这些往往面临着定制化场景泛化效果不好、价格昂贵、黑盒可控性低、技术壁垒难以形成多诸多痛点。而今天小编要给大家推荐的是一个完全开源免费的、覆盖人、车、OCR等9大经典识别场景、在CPU上可3毫秒实现急速识别、一行代码...
2022-06-14 16:31:31 256
转载 谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA(CVPR 2022)
关注公众号,发现CV技术之美本文转自机器之心,原文选自Google AI Blog,作者:Paul Hongsuck Seo和Arsha Nagrani,编辑:泽南。一个模型在五项基准上都实现了重大进步,该研究已被 CVPR 2022 大会收录。多模态视频字幕系统利用视频帧和语音来生成视频的自然语言描述(字幕)。这样的系统是朝着构建多模态对话系统的长期目标前进的一步,后者...
2022-06-14 16:31:31 589
转载 【项目合作】绘画智能创作
关注公众号,发现CV技术之美52CV 的一位粉丝现在正寻找计算机视觉项目开发的合作伙伴。『项目需求』项目类似英伟达Canvas这个产品,它是pc端的,现在要做到移动端,模型部署在server上,然后业务层调用api即可。Canvas下载:https://www.nvidia.cn/studio/canvas/参考:https://www.ithome.com/0/559/...
2022-06-07 20:10:49 126
data for scikit classfication demo
2016-12-13
Spectral SIFT
2014-04-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人