
机器视觉
文章平均质量分 91
deepdata_cn
极深数据,深耕数据行业。
展开
-
目标检测模型(EfficientDet)
在深度学习浪潮的推动下,目标检测领域迎来了蓬勃发展,众多先进的检测模型不断涌现,极大地提升了计算机对图像和视频中目标物体的识别与定位能力。然而,一个严峻的现实问题随之而来:现有的许多高性能目标检测器,尽管在精度上表现出色,却如同 “计算资源的饕餮”,需要庞大的计算资源支撑其运行。这一特性使得它们在移动设备、边缘计算设备等资源受限的环境中举步维艰,难以实现高效部署。在这样的背景下,设计一款既能保持优异性能,又具备高效计算效率的目标检测模型,成为了学术界和工业界共同追寻的目标。原创 2025-05-08 07:30:00 · 966 阅读 · 0 评论 -
视频理解技术在智能交通中的应用
随着城市化进程加速与机动车保有量激增,交通拥堵、事故频发等问题日益严峻,传统交通管理模式难以满足现代交通需求。与此同时,计算机视觉、深度学习技术飞速发展,视频理解技术在目标检测、行为分析等领域取得重大突破,为智能交通发展带来新契机。交通监控摄像头的广泛部署积累了海量视频数据,亟需高效技术实现数据价值挖掘,加之智慧城市建设与自动驾驶产业发展,对交通系统智能化提出更高要求,推动视频理解技术深度融入智能交通领域,成为解决交通难题、提升交通系统整体效能的关键技术支撑。原创 2025-05-06 07:45:00 · 1700 阅读 · 0 评论 -
双流卷积神经网络架构(OpenPose)
OpenPose作为一种基于卷积神经网络的双流架构,在人体姿态估计领域展现出卓越的性能与广泛的应用前景。人体姿态估计作为计算机视觉中的关键任务,在众多领域都有着不可或缺的作用,而OpenPose凭借其独特的架构和先进的技术,为解决这一任务提供了高效且准确的解决方案。原创 2025-05-06 07:30:00 · 1334 阅读 · 0 评论 -
从数据集视角看视频理解的发展与局限
视频理解是计算机视觉领域的一个重要研究方向,让计算机能够像人类一样理解视频中的内容和语义。视频理解涵盖多个关键任务、技术方法与应用领域。任务层面,包括在视频帧中检测并识别行人、车辆等各类物体,确定其位置与类别的目标检测与识别;分析人物或物体动作,判断跑步、跳跃等行为模式的动作识别;对视频整体场景进行分类,区分室内外、城市街道等场景类型的场景分类;理解视频事件主体、动作、对象及其关系的事件理解;以及根据视频内容自动生成自然语言描述的视频内容描述生成。原创 2025-05-05 07:30:00 · 626 阅读 · 0 评论 -
视频理解在安防领域的深度应用
在全球安全需求日益增长的背景下,传统安防监控系统逐渐暴露出局限性,难以满足实时、精准、智能的安全防范需求。视频理解技术凭借强大的图像分析和数据处理能力,成为安防领域智能化升级的核心驱动力。据市场研究机构预测,未来五年全球安防视频分析市场规模将以年均 18% 的速度增长,这项技术正重塑着安防行业的格局。随着城市化进程的加速和社会治安形势的复杂化,传统人工监控已无法满足现代安防的需求。海量监控视频数据的涌现,对实时分析、快速响应和精准决策提出了更高要求。原创 2025-05-04 07:45:00 · 1430 阅读 · 0 评论 -
仿生眼技术的发展
视觉障碍一直是困扰很多人的难题,随着科技发展,人们一直在找治疗的办法,仿生眼技术就是其中很受关注的新方法。仿生眼模仿生物神经系统工作,不仅能帮盲人恢复部分视觉,还能用在机器人上,让机器人感知环境的能力比传统视觉技术和激光雷达更强。不过,现在仿生眼技术还不能大规模使用,主要是因为量产工艺不成熟、芯片贵,而且没有统一的数据标注标准。原创 2025-04-24 07:30:00 · 891 阅读 · 0 评论 -
机器视觉在工业自动化中的全方位应用与案例分析
(一)定义机器视觉,本质上是一门融合计算机科学、光学、电子学、图像处理等多学科知识的综合性技术。它借助计算机及其配套软件系统,对图像信息进行深度处理与分析,进而获取所需数据。整个技术体系涵盖图像采集、预处理、特征提取、模式识别等多个紧密相连的环节。通过这些环节的协同运作,机器视觉系统能够将现实世界中的目标物体或场景,转化为计算机可处理的数字信息,并从中提取有价值的数据,为后续的决策和控制提供依据。(二)工作原理。原创 2025-04-23 07:45:00 · 1156 阅读 · 0 评论 -
小目标检测的优化
在当今数字化时代,安防监控、卫星图像分析等领域的应用日益广泛,而小目标检测作为其中的关键技术,始终面临着严峻挑战。以安防监控场景为例,在城市街道的监控画面中,远处的行人、车辆等小目标,以及卫星图像中微小的建筑、植被变化等,其检测精度直接关系到公共安全、灾害预警等重要功能的实现。然而,由于小目标在图像中像素占比少、特征不明显,传统的物体检测方法如同 “大海捞针”,难以取得理想效果。原创 2025-04-22 07:30:00 · 1242 阅读 · 0 评论 -
机器视觉系统中图像传感器选型
图像传感器作为机器视觉系统的基础与核心,是一种神奇的装置,它能够敏锐地捕捉光线,并将光信号巧妙地转换为电信号。在当前的技术领域中,图像传感器主要分为两大阵营:CCD(Charge-Coupled Device, 电荷耦合器件)与 CMOS(Complementary Metal-Oxide-Semiconductor, 互补金属氧化物半导体)。这两种类型的传感器各有所长,凭借自身独特的优势,在不同的应用场合中展现出卓越的性能。1.CCD 传感器特点。原创 2025-04-14 07:45:00 · 666 阅读 · 0 评论 -
人脸识别开源项(face_recognition)
项目的人脸识别是基于业内领先的C++开源库 dlib中的深度学习模型,用Labeled Faces in the Wild人脸数据集进行测试,有高达99.38%的准确率。但对小孩和亚洲人脸的识别准确率尚待提升。提供了简单易用的 API,可用于人脸检测、人脸识别和人脸编码等任务。即使没有深厚的机器学习背景,也能借助这个项目快速实现人脸识别相关的功能。原创 2025-03-26 07:45:00 · 944 阅读 · 0 评论 -
人脸识别开源视觉模型(FaceNet)
FaceNet是谷歌公司于2015年提出的一种用于人脸识别的开源计算机视觉模型。其核心是基于深度学习的卷积神经网络(CNN),能够将人脸图像映射到一个固定维度的向量(嵌入向量或特征向量)上,以此保留人脸图像的主要特征。通过比较两个人脸图像的嵌入向量,就可以判断它们是否属于同一个人,具有较高的准确性。为了训练FaceNet模型,研究人员使用了大规模的人脸图像数据库,如Labeled Faces in the Wild(LFW)数据库。原创 2025-03-26 07:30:00 · 1330 阅读 · 0 评论 -
开源2D/3D深度人脸识别分析工具(InsightFace)
InsightFace是基于PyTorch和MXNet的开源2D/3D深度人脸识别分析工具,由旷视研究院开发并维护。它集成了众多先进的人脸识别算法和模型,为研究人员和开发者提供了强大且易于使用的工具,可用于多种人脸识别相关的任务。原创 2025-03-25 07:45:00 · 736 阅读 · 0 评论 -
计算机视觉和机器学习工具(OpenFace)
随着科技的发展,许多行业对面部识别和分析技术的需求日益增长。例如,人机交互领域需要更自然、直观的交互方式,市场研究领域希望通过分析消费者的面部表情来评估广告效果和产品设计,安防领域也需要高精度的人脸识别技术来保障安全等。然而,现有的商业解决方案往往成本较高,且定制化程度有限,难以满足不同行业的多样化需求。OpenFace基于 Python 和 Torch 的神经网络算法实现的计算机视觉和机器学习工具。由卡内基梅隆大学的研究人员创建并维护。原创 2025-03-25 07:30:00 · 916 阅读 · 0 评论 -
视觉基础模型(VFMs)与传统计算机视觉(CV)模型
计算机视觉是一门研究如何让机器能够“看懂”世界的学科,通过算法处理和理解图像或视频数据。近年来,随着大数据时代的到来及计算能力的显著提升,基于深度神经网络的视觉基础模型逐渐成为该领域的研究热点。这些新模型不仅在性能上取得了突破性进展,而且其应用范围也在不断扩大。随着深度学习技术的迅猛发展,视觉基础模型(Visual Foundation Models, VFMs)作为一种新兴的图像处理方法,在众多领域展现出了超越传统计算机视觉(Computer Vision, CV)技术的强大能力。原创 2025-01-20 07:45:00 · 1203 阅读 · 0 评论 -
视觉基础模型(VFMs)
Visual Foundation Models(视觉基础模型,简称VFMs)是一种专门用于处理和理解视觉数据的基础模型,是人工智能领域中计算机视觉方向的重要技术。通常在海量的高质量图像或视频数据上进行训练,利用自监督学习技术学习数据中的潜在模式,具有很强的通用性和泛化能力,可应用于图像分割、问答、常识推理等多种视觉相关任务。自监督学习过程涉及训练模型预测输入数据中缺失或被掩盖的部分,例如重建部分模糊的图像。通过从数据的内在模式和结构中学习,这些模型获得对该领域的通用理解,并能将这些知识应用于各种任务。原创 2025-01-20 07:15:00 · 775 阅读 · 0 评论 -
人脸识别技术库(HelloFace)
HelloFace专注于脸部技术的综合资源库,涵盖了从前沿的面部检测到精准的人脸识别等多种技术。HelloFace涵盖一系列先进的技术,如基于深度学习模型的面部检测、面部对齐、人脸识别,以及面部表情识别、动作识别、3D建模、图像去模糊、超分辨率等多样化场景。项目实时更新,定期引入最新的研究成果和技术进展,模型设计兼顾准确性与运行速度,还提供多样化的数据集和基准测试,方便开发者训练和评估自己的模型。原创 2024-12-25 07:30:00 · 839 阅读 · 0 评论 -
开源人脸识别系统(CompreFace)
CompreFace由Exadel公司开源的人脸识别系统,使用Java开发,基于深度学习算法,融合了FaceNet与InsightFace技术。功能特点:能够精确捕捉人脸信息,支持Docker部署,非专业人士也能轻松搭建,支持不同场景的业务需求,同时支持Windows、Linux,支持CPU和GPU环境,还提供了口罩、人脸、性别、头部姿势等插件。应用场景:可用于安全认证、身份验证、支付系统等多种场景。原创 2024-12-24 07:30:00 · 1766 阅读 · 1 评论 -
自动车牌识别库(OpenALPR)
OpenALPR基于开源的自动车牌识别库,支持多种编程语言,包括Java等。通过引入OpenALPR的Java库,创建OpenALPR对象,添加车牌识别的模式,指定要识别的图片路径,调用recognize方法进行识别,即可得到识别结果。原创 2024-12-14 07:45:00 · 954 阅读 · 0 评论 -
中文开源车牌识别系统(EasyPR)
EasyPR是一个简单、高效、准确的中文开源车牌识别系统,基于openCV开发,能够识别中文车牌,在图片清晰情况下,车牌检测与字符识别可以达到80%以上的精度。PlateDetect过程包括车牌定位,SVM训练,车牌判断三个过程,CharsRecognise过程包括字符分割,ANN训练,字符识别三个过程。在为非限制场景下的车牌识别提供简单、高效、准确的解决方案,成为一个实用的车牌识别引擎。基于Apache v2.0协议开源,用户可自由获取源代码,并能进行二次开发和定制。原创 2024-12-11 07:45:00 · 1312 阅读 · 0 评论 -
车牌识别开源项目(Light-LPR)
Light-LPR可在嵌入式设备、手机端和普通的x86平台上运行的车牌识别开源项目,车牌字符识别准确率超99.95%,综合识别准确率超过99%,支持目前国内所有的车牌识别。采用MTCNN检测车牌和四个角点精确定位,并进行偏斜纠正,最后进行端到端识别车牌号码,使用MNN作为推理引擎。原创 2024-12-06 10:53:31 · 801 阅读 · 0 评论 -
视频理解一站式解决方案(MMAction2)
MMAction2由OpenMMLab推出的基于PyTorch的开源工具箱,是视频理解领域的一站式解决方案。专注于动作识别、动作定位、时空行为检测、基于骨骼的动作识别以及视频检索五大关键视频理解任务。采用模块化设计,可灵活构建定制化的视频理解框架。提供了详细的文档和API参考,方便用户学习和使用,且配备了单元测试,代码质量有保障。项目地址:https://gitcode.com/gh_mirrors/mm/mmaction2。原创 2024-12-06 10:53:55 · 1364 阅读 · 0 评论 -
表面缺陷检测方法库(awesome defect detection)
awesome defect detection汇集多种表面缺陷检测方法的仓库,它包括了学术论文、开源工具、算法汇总以及数据集等。包含基于深度学习的语义分割、目标检测以及对抗性网络(GAN)等技术,还关注了 PCB 电路板、钢材、胶囊、电池、织物和水果蔬菜等特定行业的应用。语义分割可像素级确定缺陷区域,目标检测能定位图像中异常部分,基于 GAN 的方法提升识别准确性,且提供的代码库可直接用于实际项目开发。原创 2024-12-08 07:45:00 · 1315 阅读 · 0 评论 -
人脸检测(YOLOv5-Face)
YOLOv5-Face基于 YOLOv5 目标检测算法改进而来,将其应用于人脸检测。利用神经网络对图像进行划分,生成多个边界框,并预测每个边界框中是否包含人脸以及人脸的位置和置信度等信息。检测速度非常快,能够实时处理视频流中的人脸检测任务,适用于对实时性要求较高的场景,如监控系统、视频会议等。通常使用WiderFace等人脸数据集进行训练,开发者可以根据自己的需求对训练配置文件进行修改,如调整训练的参数、数据增强方式等,以获得更好的训练效果。原创 2024-12-08 07:30:00 · 1220 阅读 · 0 评论 -
高性能中文车牌识别框架(HyperLPR)
HyperLPR是一个高性能中文车牌识别框架,识别速度快,在720p分辨率下,单核Intel 2.2GHz CPU平均识别时间不到100ms;准确率高,在出入口场景下,准确率可达95%97%;支持多种车牌类型,包括单行蓝牌、单行黄牌、新能源车牌、教练车牌等,还可有限支持白色警用车牌、使馆/港澳车牌、双层黄牌、武警车牌等;跨平台支持,可在Windows、Linux、MacOS、Android等多个平台上运行;采用端到端识别,无需字符分割,直接输出识别结果。原创 2024-12-07 07:30:00 · 1757 阅读 · 0 评论 -
卷积神经网络人脸检测(Cascade CNN)
Cascade CNN由一系列级联的卷积神经网络组成,每个网络都对前一个网络的输出进行进一步的细化和优化。通过逐步提高检测的精度和准确性,最终得到准确的人脸检测结果。Cascade CNN可以有效地提高人脸检测的准确率,对于复杂背景和多样化的人脸姿态具有较好的适应性。原创 2024-12-06 07:30:00 · 1166 阅读 · 0 评论 -
单阶段多任务卷积神经网络人脸检测模型(RetinaFace)
RetinaFace 是一种先进的单阶段多任务卷积神经网络人脸检测模型,采用多阶段的检测策略,结合了特征金字塔网络(FPN)和自注意力机制等技术。通过不同层次的特征图来检测不同大小的人脸,同时利用自注意力机制增强对人脸关键特征的关注。在复杂场景下,如光照变化、姿态多样、遮挡等情况下,仍能保持较高的检测准确率,对人脸的特征提取更加精细。原创 2024-12-05 07:45:00 · 805 阅读 · 0 评论 -
图像处理和机器视觉库(CVCUDA)
CVCUDA是一个开源的、GPU加速的图像处理和计算机视觉库,由NVIDIA和字节跳动的机器学习团队联合开发。它支持batch操作,可以充分利用GPU的并行加速特性,提升计算效率和吞吐率。原创 2024-12-04 07:30:00 · 876 阅读 · 0 评论 -
目标检测算法(Haar Cascades)
Haar Cascades是一种基于机器学习的目标检测算法,它使用了Haar特征。Haar特征是一种简单的矩形特征,通过计算图像中相邻矩形区域的像素灰度差值来表示图像的局部特征。例如,对于人脸检测,眼睛区域通常比脸颊区域暗,这种灰度差异可以通过Haar特征来捕捉。它利用了积分图像(Integral Image)的概念,这使得Haar特征能够快速计算。积分图像可以在常数时间内计算出任何矩形区域的像素和,大大提高了特征计算的效率。原创 2024-11-24 07:30:00 · 1118 阅读 · 0 评论 -
机器视觉包(MMCV)
MMCV是一个基于 PyTorch 的图像/视频处理和转换器,支持 Linux、Windows 和 macOS 等系统,是计算机视觉研究人员最常用的包之一,支持 Python 和 C++开发语言。提供了许多图像和视频处理的工具和函数,能够方便地进行数据加载、预处理、模型训练和评估等操作。它还集成了一些常见的计算机视觉算法和模型,方便用户直接使用和修改。MMCV 的设计目标是提供简洁、高效和可扩展的工具,其丰富的功能和高质量的实现能够大大简化计算机视觉任务的开发和实验过程。原创 2024-10-27 07:45:00 · 900 阅读 · 0 评论 -
视觉 AI 平台(OnePanel)
OnePanel是一个生产规模、Kubernetes 原生的视觉 AI 平台,具有用于模型构建、自动标记、数据处理和模型训练管道的完全集成的组件。它提供了一个端到端的解决方案,方便用户进行机器视觉项目的开发和部署。OnePanel基于 Kubernetes 的架构使其具有良好的可扩展性和可管理性,能够方便地在云环境或本地集群中运行,并且支持多用户协作和资源管理,适合企业级的机器视觉项目。原创 2024-10-25 07:30:00 · 2116 阅读 · 0 评论 -
机器视觉工具(YOLO)
核心原理:将目标检测视为回归问题,直接在单个网络中预测边界框和类别概率。也就是说,输入图像后,模型会一次性输出图像中所有检测到的目标的位置和类别信息,无需像传统方法那样分多个阶段进行处理。将输入图像划分为s×ss\times ss×s的网格。如果一个物体的中心落在某个网格单元内,那么该网格单元就负责预测这个物体。每个网格单元会预测bbb个边界框以及对应的置信度,置信度表示该边界框包含物体的概率以及预测的准确度。网络架构:由多个卷积层和池化层组成,这些层可以提取图像的特征。原创 2024-10-23 07:45:00 · 2274 阅读 · 0 评论 -
机器视觉平台(OpenMV)
硬件方面:处理器:配备专门设计的ARM CortexM7处理器,具有较高的运算能力,能够满足实时图像处理的需求。图像传感器:集成了高质量的图像传感器,可支持不同分辨率的图像采集,为机器视觉处理提供了高质量的图像源。存储及接口:拥有MicroSD卡插槽,方便用户存储图像数据和程序代码等。同时,具备多种通信接口,如UART、I2C、SPI、CAN总线等,可以方便地与其他设备进行通信和数据交换,具有很强的扩展性和兼容性,能轻松与各种外设或其他嵌入式系统进行连接。原创 2024-10-21 07:30:00 · 2337 阅读 · 0 评论 -
开源光学字符识别(PaddleOCR)
PaddleOCR由百度的飞桨团队开发。是一个功能强大的开源光学字符识别工具,支持多种语言的文本识别,能够准确识别图像中的文字,并将其转换成可编辑的文本格式。它在文档扫描、车牌识别、票据识别等场景中有广泛的应用,具有较高的识别准确率和较快的识别速度。并且提供了丰富的文档和教程,方便开发者使用和二次开发。原创 2024-10-20 07:30:00 · 1632 阅读 · 0 评论 -
开源计算机视觉库(OpenCV)
OpenCV(Open Source Computer Vision Library)是一个基于BSD许可(开源)发行的跨平台计算机视觉库。OpenCV提供了很多用于图像处理和分析的函数和算法。在图像识别方面,可以使用 OpenCV 进行图像预处理、特征提取等操作,为后续的图像识别任务提供基础。例如,可以使用 OpenCV 进行图像的灰度化、二值化、边缘检测等操作,以便更好地提取图像中的特征信息。原创 2024-10-19 07:30:00 · 784 阅读 · 0 评论