计算机视觉
文章平均质量分 94
分享优秀的计算机视觉算法、并结合实际场景应用提供应用示例。
智慧医疗
浙江大学研究生,专注于后端技术架构和人工智能算法的研究,具有多年大厂工作经验。
展开
-
使用opencv实现图像中几何图形检测
什么是轮廓,简单说轮廓就是一些列点相连组成形状、它们拥有同样的颜色、轮廓发现在图像的对象分析、对象检测等方面是非常有用的工具,在OpenCV中使用轮廓发现相关函数时候要求输入图像是二值图像,这样便于轮廓提取、边缘提取等操作。原创 2023-12-20 23:51:19 · 2188 阅读 · 2 评论 -
opencv中叠加Sobel算子与Laplacian算子实现边缘检测
openCV进行边缘检测时,可以将不同算法结合起来,达到更好的效果,本例使用Sobel算子 结合 Laplacian算子 实现图像边缘检测。原创 2023-12-16 08:04:38 · 1285 阅读 · 0 评论 -
使用opencv的Laplacian算子实现图像边缘检测
Laplacian算子是一种图像处理中常用的边缘检测算子,它用于检测图像中的边缘和轮廓。该算子计算图像中每个像素点的二阶导数,从而突出图像中灰度值变化较大的区域,这些区域通常对应图像的边缘或者轮廓。原创 2023-12-15 21:26:22 · 1368 阅读 · 0 评论 -
使用opencv的Sobel算子实现图像边缘检测
边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化,包括深度不连续、表面方向不连续、物质属性变化和场景照明变化。边缘检测特征是提取中的一个研究领域。图像边缘检测大幅度地减少了数据量,并且剔除了可以认为不相关的信息,保留了图像重要的结构属性。原创 2023-12-15 20:58:48 · 2356 阅读 · 0 评论 -
基于扩散的图像超分辨率模型:ResShift
基于扩散的图像超分辨率(SR)方法由于需要数百甚至数千个采样步骤,导致推理速度较低。现有的加速采样技术不可避免地会在一定程度上牺牲性能,导致SR结果过于模糊。为了解决这个问题,我们提出了一种新颖有效的SR扩散模型,该模型显著减少了扩散步骤的数量,从而消除了推理过程中对后加速的需求及其相关的性能下降。原创 2023-12-14 23:14:39 · 5719 阅读 · 6 评论 -
opencv的图像直方图处理
图像直方图(Image Histogram)是用以表示数字图像中亮度分布的直方图,标绘了图像中每个亮度值的像素个数。在图像直方图中,横坐标的左侧为纯黑、较暗的区域,而右侧为较亮、纯白的区域。因此一张较暗图片的直方图中的数据多集中于左侧和中间部分,而整体明亮、只有少量阴影的图像则相反。原创 2023-12-07 16:23:39 · 1513 阅读 · 0 评论 -
计算机视觉:使用dlib实现人脸检测
Dlib库在人脸检测领域的应用是其最引人注目的功能之一。它提供了一套强大的人脸检测和识别工具,使得从复杂背景中准确地检测和识别人脸成为可能。原创 2023-11-29 20:39:47 · 2848 阅读 · 0 评论 -
使用opencv实现更换证件照背景颜色
生活中经常要用到各种要求的证件照电子版,红底,蓝底,白底等,大部分情况我们只有其中一种,本文通过opencv实现证件照背景的颜色替换。原创 2023-11-28 23:40:52 · 2425 阅读 · 1 评论 -
使用opencv实现图像滤波
滤波是信号和图像处理中的基本任务之一,其旨在有选择地提取图像的某些特征,可以用于在给定应用程序的上下文中传达重要信息,例如,去除图像中的噪声、提取所需的视觉特征、图像重采样等。原创 2023-11-27 17:30:52 · 2320 阅读 · 0 评论 -
使用paddleocr实现图片文字智能提取
PaddleOCR是由百度开发的一款开源光学字符识别(OCR)工具,基于PaddlePaddle深度学习框架。它专注于提供轻量级、灵活且高效的OCR解决方案,旨在帮助开发者和研究人员在各种应用场景中快速部署OCR功能。PaddleOCR涵盖了OCR的全流程,包括文本检测、文本识别和文本校正等环节。原创 2023-11-22 20:25:11 · 5430 阅读 · 2 评论 -
使用tesseract-ocr实现图片中的中英文字符提取
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布,支持100多种语言。原创 2023-11-16 11:34:04 · 2123 阅读 · 0 评论 -
计算机视觉:使用opencv实现车牌识别
汽车车牌识别(License Plate Recognition)是一个日常生活中的普遍应用,特别是在智能交通系统中,汽车牌照识别发挥了巨大的作用。汽车牌照的自动识别技术是把处理图像的方法与计算机的软件技术相连接在一起,以准确识别出车牌牌照的字符为目的,将识别出的数据传送至交通实时管理系统,以最终实现交通监管的功能。在车牌自动识别系统中,从汽车图像的获取到车牌字符处理是一个复杂的过程,主要分为四个阶段:图像获取、车牌定位、字符分割以及字符识别。原创 2023-11-15 21:06:42 · 18112 阅读 · 14 评论 -
使用opencv实现图像的扭曲矫正
在图像处理中,经常需要对图像进行各种操作如平移、缩放、旋转、翻转等,这些都是图像的仿射变换。图像仿射变换又称为图像仿射映射,是指在几何中,一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间。通常图像的旋转加上拉升就是图像仿射变换,仿射变换需要一个M矩阵实现,但是由于仿射变换比较复杂,很难找到这个M矩阵.原创 2023-11-14 03:04:15 · 3648 阅读 · 0 评论 -
计算机视觉:使用opencv实现银行卡号识别
OpenCV是Open Source Computer Vision Library(开源计算机视觉库)的简称,由Intel公司在1999年提出建立,现在由Willow Garage提供运行支持,它是一个高度开源发行的计算机视觉库,可以实现Windows、Linux、Mac等多平台的跨平台操作。opencv是一个用于图像处理、分析、机器视觉方面的开源函数库,已经成为学习计算机视觉强大的工具。在入侵检测、特定目标跟踪、目标检测、人脸检测、人脸识别、人脸跟踪等领域,opencv可谓大显身手。原创 2023-11-13 21:07:28 · 4646 阅读 · 6 评论 -
视觉大模型DINOv2:自我监督学习的新领域
DINOv2的开源,无疑将进一步推动人工智能领域的发展。借助这个工具,科研人员可以更深入地研究图像和视频的理解机理,开发出更为先进的AI应用。同时,广大开发者和企业也将从这项技术中获益,加速各类智能化应用的落地。DINOv2 作为一种无需 fine-tuning 的自监督方法,在提取图像特征方面表现出色,适用于许多不同的视觉任务。它的开源也为广大研究者和工程师提供了一种新的选择,有望为计算机视觉领域带来更多的突破,可以期待更多基于 DINOv2 的研究工作出现。原创 2023-11-12 23:28:20 · 5738 阅读 · 2 评论 -
使用opencv实现人脸检测:Haar级联分类器
人脸检测的目标是确定图像或视频中是否存在人脸。如果存在多个面,则每个面都被一个边界框包围,因此我们知道这些面的位置人脸检测算法的主要目标是准确有效地确定图像或视频中人脸的存在和位置。这些算法分析数据的视觉内容,搜索与面部特征相对应的模式和特征。通过采用机器学习、图像处理和模式识别等各种技术,人脸检测算法旨在将人脸与视觉数据中的其他对象或背景元素区分开来。人脸很难建模,因为有许多变量可以改变,例如面部表情、方向、照明条件以及太阳镜、围巾、口罩等部分遮挡。原创 2023-11-12 22:18:25 · 3136 阅读 · 0 评论 -
计算机视觉:使用opencv进行直线检测
霍夫变换(Hough Transform)是图像处理中的一种特征提取方法,可以识别图像中的几何形状。它将在参数空间内进行投票来决定其物体形状,通过检测累计结果找到一极大值所对应的解,利用此解即可得到一个符合特定形状的参数。原创 2023-11-11 20:49:30 · 5508 阅读 · 1 评论 -
轻量级分割一切视觉模型:MobileSAM
MobileSAM比原始SAM小60多倍,但性能与原始SAM相当。就推理速度而言,MobileSAM每幅图像运行约10ms:图像编码器运行8ms,掩码解码器运行2ms。凭借卓越的性能和更高的通用性,我们的MobileSAM比并发的FastSAM小7倍,快4倍,更适合移动应用。原创 2023-11-06 21:25:51 · 1237 阅读 · 2 评论 -
医学图像分割模型:U-Net详解及实战
2015年U-Net的出现使得原先需要数千个带注释的数据才能进行训练的深度学习神经网络大大减少了训练所需要的数据量,并且其针对神经网络在图像分割上的应用开创了先河。当时神经网络在图像分类任务上已经有了较好的成果,但在很多视觉的任务中由于输出需要进行定位,也就是每个像素需要分配一个类标签,这导致成千上万的训练图像在生物医学任务中通常难以获得,从而急需要一个神经网络,它不需要那么多的数据来进行训练却依旧有较好的效果,这就导致了U-Net的诞生。U-Net几乎是当前segmentation项目中应用最广的模型。原创 2023-10-24 17:54:41 · 13002 阅读 · 7 评论 -
计算机视觉:比SAM快50倍的分割一切视觉模型FastSAM
最近发布的FastSAM(Fast Segment Anything),论文结果最快提升50倍,参数更少,显存占用减少,适合应用部署。FastSAM是基于YOLOv8-seg的,这是一个配备了实例分割分支的对象检测器,它利用了YOLACT 方法。作者还采用了由SAM发布的广泛的SA-1B数据集。通过直接在仅2%(1/50)的SA-1B数据集上训练这个CNN检测器,它实现了与SAM相当的性能,但大大减少了计算和资源需求,从而实现了实时应用。作者还将其应用于多个下游分割任务,以显示其泛化性能。原创 2023-08-22 18:32:40 · 2789 阅读 · 0 评论 -
迁移学习:使用Resnet预训练模型构建高效的水果识别模型
迁移学习(Transfer Learning)是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习通俗来讲就是学会举一反三的能力,通过运用已有的知识来学习新的知识,其核心是找到已有知识和新知识之间的相似性,通过这种相似性的迁移达到迁移学习的目的。原创 2023-08-03 11:18:39 · 2981 阅读 · 6 评论 -
计算机视觉:分割一切AI大模型segment-anything
Segment Anything Model (SAM)来源于Facebook公司Meta AI实验室。据Mata实验室介绍,SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像领域上即开即用,无需额外的训练。在深度学习领域,这种能力通常被称为零样本迁移(这种能力正是GPT4 震惊世界的一大原因).原创 2023-06-27 19:44:57 · 6750 阅读 · 0 评论 -
计算机视觉:VGGNet网络详解
VGGNet是牛津大学视觉几何组(Visual Geometry Group)提出的模型,故简称VGGNet, 该模型在2014年的ILSVRC中取得了分类任务第二、定位任务第一的优异成绩。该模型证明了增加网络的深度能够在一定程度上影响网络最终的性能。论文链接:https://arxiv.org/abs/1409.1556。原创 2023-05-17 22:12:05 · 5386 阅读 · 0 评论 -
计算机视觉之MobileNetV3
MobileNetV3 是由 google 团队在 2019 年提出的轻量化网络模型,传统的卷积神经网络,内容需求大,运算量大,无法再移动设备以及嵌入式设备上运行,为了解决这一问题,MobileNet网络应运而生。MobileNetV3在移动端图像分类、目标检测、语义分割等任务上均取得了优秀的表现。MobileNetV3采用了很多新的技术,包括针对通道注意力的Squeeze-and-Excitation模块、NAS搜索方法等,这些方法都有利于进一步提升网络的性能。原创 2023-05-19 02:36:27 · 15283 阅读 · 9 评论 -
计算机视觉之ResNet
RestNet是2015年由微软团队提出的,在当时获得分类任务,目标检测,图像分割第一名。该论文的四位作者何恺明、张祥雨、任少卿和孙剑如今在人工智能领域里都是响当当的名字,当时他们都是微软亚研的一员。实验结果显示,残差网络更容易优化,并且加深网络层数有助于提高正确率。在ImageNet上使用152层的残差网络(VGG net的8倍深度,但残差网络复杂度更低)。对这些网络使用集成方法实现了3.75%的错误率。获得了ILSVRC 2015竞赛的第一名。原文链接这是一篇计算机视觉领域的经典论文。原创 2023-05-18 16:19:29 · 21437 阅读 · 6 评论