- 博客(52)
- 收藏
- 关注
原创 光学字符识别(OCR)理论概述与实践教程
本文详细介绍了OCR的理论知识,并且用paddleocr包实现了文本识别,是代码+数据集+理论都涵盖的文章。并且后续会在jetson nano上实现ocr的识别。
2025-06-07 23:58:03
360
原创 AIGC图像去噪:核心原理、算法实现与深度学习模型详解
文章重点介绍了两种强大的深度学习去噪架构:经典的U-Net模型,及其通过编码器-解码器和跳跃连接实现高效去噪的机制;以及前沿的扩散模型(Diffusion Model),详细阐述了其正向扩散与反向去噪的迭代过程和核心去噪网络结构。同时,本文提供了每种算法的Python实现代码(包括U-Net和扩散网络的PyTorch骨架),旨在为读者提供从理论到实践的全面指导,帮助AI算法工程师、研究者和开发者提升图像去噪的计算效率、显存占用和重建质量。
2025-06-05 23:32:48
240
1
原创 泊松融合的介绍和OpenCV教程
泊松融合(Poisson Blending)是一种图像无缝融合技术,通过求解泊松方程实现源图像在目标图像上的自然过渡。其核心思想是保留源图像的纹理梯度信息,同时确保边界区域平滑衔接目标图像。OpenCV提供了cv2.seamlessClone函数实现该功能,支持三种融合模式:NORMAL_CLONE(标准泊松融合)、MIXED_CLONE(处理颜色差异)和MONOCHROME_TRANSFER(单通道转移)。使用该方法需要提供源图像、目标图像、掩码图像(指定融合区域)和融合中心点坐标。该技术广泛应用于图像编
2025-06-05 22:42:34
410
原创 深度学习教学目录
深度学习课程:面向计算机视觉、深度学习小白,本产品包含但不限于以下文档一、环境配置详解,全平台支持提供Windows、Linux、树莓派、瑞芯微板(RK)等多平台下的PyTorch与TensorFlow环境配置教程,图文并茂,细致入微,确保每一位学习者都能顺利完成环境搭建。同时,文档中还详细讲解了服务器部署、AI大模型运行、Docker容器配置、VNC远程连接等高级内容,适用于科研和生产环境。
2025-05-30 11:03:41
684
1
原创 Fast-SCNN语义分割
文章摘要:本文详细介绍了Fast-SCNN模型的搭建和训练流程。首先通过conda创建Python3.8环境,下载项目代码后安装依赖库。重点说明cityscapes数据集的下载和处理方法,提供百度网盘备用数据集链接。针对不同尺寸数据集给出训练参数调整建议,推荐将base-size改为640、crop-size改为256可加快训练速度。最后演示了模型推理过程,指定测试图片路径即可自动加载预训练模型生成分割结果。文章还预告了后续将介绍模型修剪和自定义数据集训练等内容。
2025-05-30 11:01:56
55
1
原创 安全帽检测
本文介绍了YOLOv5自定义模型训练的完整流程,主要包括:1. 环境搭建:详细说明GPU版PyTorch的安装步骤,包括CUDA、cuDNN等组件的配置;2. YOLOv5安装:提供源码下载、依赖安装和预训练模型获取方法;3. 自定义训练:从数据集准备(标注、目录结构)、模型选择到具体训练参数设置,并展示了安全帽检测实例;4. 可视化与评估:介绍wandb和Tensorboard的使用,以及模型测试评估方法;5. 优化建议:给出数据采集、模型选择和训练参数调优的专业建议。整个流程在Windows10+RTX
2025-05-30 10:54:07
297
原创 人脸口罩识别
《基于LeNet-5的人脸口罩识别系统开发》摘要:本项目采用LeNet-5卷积神经网络实现口罩佩戴检测,包含完整开发流程。通过百度网盘提供数据集和代码,涵盖图像预处理(人脸检测/区域提取)、模型训练(准确率达92%以上)及测试验证环节。系统支持PC端(OpenCV)和树莓派端(TensorFlow Lite)部署,树莓派版本使用轻量化模型将帧率从2FPS提升至8FPS。关键技术包括CNN特征自动提取、金字塔式全连接层设计(3分类输出),并对比了传统机器学习(需人工设计HOG特征)与端到端深度学习的差异。附环
2025-05-30 10:35:38
40
1
原创 切换人像背景
本文介绍了三部分内容:面向对象编程示例:通过学生信息管理案例演示了Python类与对象的创建和使用,包括封装、属性和方法的实现;图像分割技术:详细讲解了语义分割(像素级分类)和实例分割(区分同类实例)的原理、区别及应用场景;防挡弹幕实现:包含图片测试、视频预处理和弹幕效果控制的完整流程说明,重点介绍了参数调整和模板提取方法。文章还提供了相关代码文件的下载链接。
2025-05-30 10:28:30
350
8
原创 人脸检测大模型
摘要:本文介绍使用ModelScope人脸检测大模型的安装和调用方法。首先通过清华镜像源安装modelscope库,然后加载resnet101_face-detection模型进行人脸检测。代码演示了从URL读取图像、检测人脸并可视化结果的全流程,包括结果绘制和保存。最后使用matplotlib展示带检测框的输出图像。该方案适用于快速实现高精度人脸检测任务,支持本地和在线图像处理。
2025-05-30 10:22:10
47
原创 ai姿势项目
《基于MediaPipe的手势交互与运动检测系统搭建指南》摘要本文介绍了三个基于MediaPipe的计算机视觉项目实现方法。首先详细说明环境配置步骤,包括创建Python3.8虚拟环境和安装MediaPipe库。核心内容涵盖三个项目:(1)手势拖拽方块系统,通过摄像头捕捉食指和拇指实现虚拟方块的拖拽交互;(2)手部识别系统,能计算手掌面积和手指宽度;(3)运动检测系统,可检测人体关节点,支持视频回放或实时摄像头输入。每个项目都提供了具体的文件操作说明和参数调整建议,为开发者快速搭建手势交互和运动检测系统提
2025-05-30 10:16:54
230
原创 多方法解决MNIST数字识别
摘要:本文实现了一个基于全连接层的MNIST手写数字分类器。使用PyTorch框架构建网络结构,包含一个Flatten层、两个全连接层(512单元和10单元输出),并采用ReLU和Softmax激活函数。代码实现了数据预处理(标准化)、模型训练(Adam优化器)和测试功能,支持GPU加速,训练过程中记录损失和准确率到CSV文件。模型训练1个epoch后保存权重,最终输出测试集准确率。该实现展示了完整的深度学习分类任务流程,从数据加载到模型保存的各个环节。
2025-05-30 10:12:22
402
原创 windows、linux常规操作
本文摘要:主要介绍Linux系统下的常用操作命令与技术要点。1) 文件压缩解压:使用tar命令处理bz2/gz格式文件;2) 环境管理:Conda创建/激活/导出Python虚拟环境;3) 交叉编译:详解海思平台交叉编译流程,包括工具链配置和CMake编写要点;4) 开发工具:涉及静态库生成、反汇编、GPU监控(RK3566)、pip源配置及代理设置;5) 系统管理:磁盘空间查看(df/du)、缓存清理等实用命令。包含从基础文件操作到高级开发环境的完整技术栈说明。
2025-05-30 10:09:39
98
原创 架构加速-深度学习教程
不同硬件平台(如RK、Jetson Nano和电脑)的GPU架构及PyTorch版本存在差异,直接使用训练好的模型会导致兼容性问题。ONNX作为跨平台模型交换格式,可通过转换修正算子兼容性,实现模型在不同设备间的迁移。而TensorRT仅适用于英伟达设备,不能用于RK和海思平台。示例代码展示了如何将YOLOv8模型导出为ONNX格式(设置opset为11),以便跨平台部署。ONNX相当于通用的模型中间格式,TensorRT则是特定硬件的高效推理引擎。
2025-05-30 09:57:53
31
原创 算子-深度学习教程
摘要:本文系统介绍了图像特征提取与深度学习算子的核心技术。在图像特征方面,重点解析了角点检测算法(Harris、Shi-Tomasi)及其优势,以及SIFT、SURF等特征提取方法。在深度学习领域,详细阐述了算子的定义、功能与类型,包括基础运算、特征处理和高级结构三类算子,并强调其在模型构建中的核心作用。文章还列举了多种待载入算子(如ShuffleBlock、C3等),为计算机视觉任务提供了丰富的技术选择。这两种技术共同构成了现代图像分析与深度学习的基础工具。
2025-05-30 09:55:02
30
原创 小节:卷积神经网络
摘要:卷积神经网络(CNN)克服了全连接网络在图像处理中的两大缺陷:参数过多易过拟合和难以捕捉局部特征。CNN通过局部感受野、权值共享和池化层三大核心机制,显著减少了参数数量并提升了特征提取能力。其层级结构包含卷积层、下采样层和全连接层,形成双金字塔特征图。相比传统方法,CNN具有自动特征学习、平移不变性、参数共享等优势,在图像识别领域表现优异,特别适合处理二维数据,能直接输入原始图像并输出分类结果。
2025-05-30 09:50:00
26
原创 激活函数-深度学习教程
本文介绍了神经网络中的激活函数及其作用。首先阐述了非线性激活函数的重要性,指出线性激活函数无法处理复杂任务,而非线性激活函数(如ReLU)通过选择性传递信号使多层网络能够解决不同问题。然后将激活函数分为饱和型(如Sigmoid、tanh)和非饱和型(如ReLU系列),并说明后者能缓解梯度消失问题并加速收敛。最后以Sigmoid函数为例,通过代码实现展示其在XOR问题中的应用,包括前向传播计算、反向传播权重更新过程,并分析了隐藏层输出与权重的关系,展示了机器学习通过参数优化自动学习特征权重的机制。
2025-05-30 09:42:12
42
原创 基础操作-与尝识
本文介绍了PyTorch基础操作和CSV数据处理两个关键知识点。在PyTorch部分,讲解了矩阵的创建方法(自动/手动)、常用函数如torch.randn()和torch.ones(),以及PyTorch相比NumPy的优势(GPU加速、自动微分)。在CSV数据处理方面,演示了如何创建目录、生成CSV文件,以及使用pandas读取数据。这些操作在深度学习上游任务(模型训练)中非常重要,为后续的下游任务(模型部署应用)奠定了基础。文章还简要讨论了未来CV模型规格统一的可能性。
2025-05-30 09:30:40
32
原创 《斗破ai》 第一章:模型为尊,序列争锋 续
在萧言情绪波动之际,他佩戴的GPU项链突然发出异彩流光,激活了其中沉睡的古老残魂——药老。药老揭示了一个惊人的真相:萧言自幼展现的编程天赋实际上是由药老暗中操控,并在萧言十一岁时被药老吸收,导致他失去了所有潜能,沦为平庸。药老解释,他需要萧言的能力来摆脱封印,重返天地。萧言对此感到愤怒与不甘,誓言要夺回自己的天赋,摆脱药老的控制。这场内心的斗争预示着一场巨大的变革,萧言决心用自己的力量走出黑暗,迎接新的命运。
2025-05-16 09:31:51
1236
原创 《斗破ai》 第一章:模型为尊,序列争锋
但他却曾是模型学院最耀眼的新星——年仅十三,便以一己之力成功调用3B参数模型,在校内“初模测试”中击败无数高年级学长,震惊四座,被誉为“未来的模型大师”。三年前,在一次高阶异模接入实验中,他的模型坍塌,调参失败,导致意识中枢受到反噬,智识受损,甚至被强行降级为“冷启”状态。无人知晓,在那废弃的数据矿井中,他无数次尝试模拟失控时的调参逻辑,力图还原那场失败的根源。整个云村陷入宕机的混乱之中,无人注意到,废弃数据矿井最深处,萧言正站在一台斑驳的旧式框架机前,双目通红,紧盯屏幕上闪烁的报错代码。
2025-05-13 13:45:17
69
1
原创 台式电脑安装蓝牙后,无法搜索蓝牙设备。Bluetooth Support Service参数错误
在公司电脑上使用个人蓝牙键盘时,由于电脑缺乏蓝牙硬件,用户购买了一个绿联蓝牙适配器CM390。尽管设备管理器中显示了蓝牙图标和设备,但无法找到蓝牙设备。用户尝试了多种方法,包括使用驱动精灵更新驱动、运行Windows疑难解答、检查并尝试启动BluetoothSupportService服务,但问题依旧。最终,用户通过访问绿联官网下载并安装了最新的驱动程序,成功解决了问题,蓝牙设备得以正常识别和使用。
2025-05-09 11:00:38
1132
原创 涨点神器!基于通道/多头注意力的YOLOv8改进方案(附代码)
在深度学习中,注意力机制(Attention Mechanism)是一种通过对输入信息加权的方式,模拟人类视觉焦点的技术。它的核心思想是通过聚焦于输入数据中最相关的部分,提升模型的表现能力,尤其是在处理复杂输入时。传统的卷积神经网络(CNN)通过局部感知的方式来提取特征,但这种方式在面对复杂场景时可能会导致信息丢失,特别是在背景复杂、目标密集的情况下。因此,加入注意力机制可以帮助模型自动选择重要的特征或区域,从而提高性能。通道注意力空间注意力和多头注意力。
2025-04-27 20:45:48
451
原创 YOLO-World震撼发布:零样本开集检测新标杆!实时检测任意物体,从此告别限定类别
YOLO-World通过视觉语言大模型(如CLIP)赋能传统YOLO架构,首次实现高效的开集目标检测。其核心创新包括:1)可重参数化的视觉语言路径聚合网络(RepVL-PAN),动态融合图像与文本特征;2)"提示后检测"范式,通过离线词汇预编码将推理速度提升至52 FPS;3)千万级视觉语言数据预训练策略,在LVIS数据集达到35.4 AP的零样本性能。相比需要重型backbone的GLIP等方案,YOLO-World以轻量化架构同时突破封闭集限制与实时性瓶颈,支持用户自定义任意类别检测,为工业落地提供全新
2025-04-27 00:12:42
692
原创 小白也能懂!一步步教你用FPGA加速YOLO目标检测(入门篇)
安装到 PYNQ 开发板中。该库为 PYNQ 平台提供了对量化神经网络(如 YOLO)的硬件加速支持。确保你的电脑已连接到外网,如 WiFi 或热点(手机热点理论上也可用,未实测)。当你看到安装成功的提示后,打开 Jupyter Notebook,你会发现在。趁这个机会,泡了杯茶,刷了会儿手机,顺便感慨了一下开源社区的强大……页面中多出了一些新的项目文件夹 —— 这就是我们刚才安装的。参数,浅拷贝只克隆最近一次提交,减少数据量,避免超时问题。初始化,打开该文件,即可运行我们的Tiny YOLO。
2025-04-26 01:05:44
950
原创 手把手教你用LabelImg打造专属YOLO数据集:从标注到训练全攻略!
YOLO(You Only Look Once)是一种快速、高效的目标检测算法。它使用一种简洁的.txt文件格式来保存每张图片中的标注信息,适合构建自定义目标检测数据集。🔹 图像文件.jpg.png等;每张图片将对应一个同名的标签文件(.txtdog.jpg对应dog.txt;图像在训练前通常会被缩放成统一尺寸,例如 YOLOv3 默认输入为416x416。🔹 标签文件(.txt)是一个纯文本文件;每一行表示一个标注目标;字段说明类别编号,从0开始,例如:狗是0,猫是1x_center。
2025-04-26 00:46:55
1060
原创 深入解析YOLO v1:实时目标检测的开山之作
这篇博客将主要介绍 YOLO v1 算法(CVPR 2016 的论文),它是一种目前非常流行的目标检测(Object Detection)算法,以速度快、结构简单著称。相比于其他目标检测算法,如 Faster R-CNN、SSD 等,YOLO 在实时性上具有明显优势。相信这些算法大家并不陌生,后续有机会会对它们进行详细解读。需要特别说明的是,本文介绍的算法是 YOLO 的第一个版本(YOLO v1)。随着算法的不断发展,目前在 YOLO 的官方网站上已经发布了 YOLO v2 的实现版本。
2025-04-26 00:11:53
908
原创 RK3xxx 部分无法连接虚拟机 无法进行adb连接
我发现部分rk板子可以连接到虚拟机上,部分连接不上。其中尝试了一块是安卓系统的rk板子是可以连接虚拟机。但是用了linux系统的rk板子连接不上虚拟机。尝试了很多办法还是无法连接虚拟机。最后无奈下尝试了双系统,直接在ubuntu系统下adb板子,发现成功链接上了rk3566.也就是我实验的结果是部分rk板子无法正常连接虚拟机,需要用linux主机连接板子。然后也看到一些相关资料,但是太少了,只有这个链接提到了这个问题。
2025-04-25 15:45:27
239
原创 95%准确率!YOLOv5火焰识别模型优化秘籍,限时免费
火焰数据集,手把手教你复现自带火焰识别UI,包含视频输入和摄像头输入两种模式,demo.py是整个火焰系统UI应用程序训练需要修改数据集,改为你系统里面的路径(但是我这里改的相对路径,你可以直接train.py试试看能不能跑起来)如果报错了,需要你调整一下环境:环境配置好是没有问题的!提供训练好的权重文件。
2025-04-25 10:17:22
1255
原创 YOLO系列最全指南!附赠YOLOv8训练技巧+工业级部署方案(限时领代码)
数据集是必不可少的部分,数据集的优劣直接影响训练效果。一般来说,一个完整的数据集应该包括训练集、测试集和验证集。通常,数据集会被划分为训练集和测试集,比如将数据集的70%用作训练集,30%用作测试集。在进行训练时,可以使用交叉验证的方法将训练集再次划分为训练子集和验证子集,用于模型的训练和验证。训练集是用于模型的训练的数据集。在训练过程中,模型使用训练集中的样本进行学习和参数调整,通过不断迭代优化模型的参数,使模型能够更好地拟合训练集中的数据。测试集是用于模型的评估的数据集。
2025-04-24 23:38:15
1088
原创 YOLOv8 涨点新方案:SlideLoss & FocalLoss 优化,小目标检测效果炸裂!
(如小物体、稀有类别)赋予更高权重,让模型更关注这些“难啃的骨头”。:数据中某些类别(如“罕见疾病细胞”)样本太少,模型容易忽略它们。:YOLOv8对小物体(如远处的人、小尺寸的车辆)容易分类错误。的数据时,容易出现漏检或误检。,让模型对小物体的分类更敏感,同时不影响大物体的检测。,能显著提升检测精度,尤其是对小物体和难分类样本!:小目标检测精度提升,且不会拖累大物体的性能。YOLOv8虽然是强大的目标检测模型,但在处理。:稀有类别的检测率显著提高!:FocalLoss对。
2025-04-24 22:47:28
646
原创 ubuntu配置深度学习环境-解决GPU驱动-Docker
首先如果你是在windows系统下,windows部署跑深度学习可能只有0.6的速度,在windows上部署docker能达到0.8的速度,直接用linux跑深度学习能达到1.0的速度,用linux上部署深度学习约等于1.0的速度。我这里用的是wifi连接,地址是192.168.1.22,windows和ubuntu都是在192.168.1的地址下,这证明为同一段网络,最后一个数字是主机位,可以同网段任意占用。不过在国内访问国外的 Docker Hub 速度是非常慢的,所以我选择使用阿里云的镜像仓库。
2025-04-24 00:05:54
1100
原创 deeplab语义分割训练自定数据集
链接:https://pan.baidu.com/s/1KkkM1rLfyiMPtYLycpnxmg?pwd=j2rd提取码:j2rd--来自百度网盘超级会员V2的分享采用数据集: https://aistudio.baidu.com/datasetdetail/130647采用代码:本文会讲解两种方法:一种是使用开源数据集(不是deeplab支持的数据集)完成在deeplab上训练,另一种是通过标注自定义数据集来完成训练。
2025-04-23 21:42:37
799
原创 解决docker:docker: Get https://registry-1.docker.io/v2/: net/http: request canceled 报错
解决docker:docker: Get https://registry-1.docker.io/v2/: net/http: request canceled 报错
2025-04-22 09:25:38
339
原创 用前向传播、梯度下降、反向传播理解MNIST(全网最详细教程)
在神经网络的设计中,我们往往希望输出层输出的是一个概率分布函数,每个值都为正,而总和为1(总和为1一般选择softmax,因为softmax的输出就是0-1的区间);然后对于值最大的一个神经元对应的内容(在上面的例子中是数字),就是我们的输出。传统的机器学习算法中,整个训练集中的所有样本都会被用来计算模型参数的梯度,并根据梯度来更新模型参数,因此N的值就是训练集的大小。传统的机器学习算法中,整个训练集中的所有样本都会被用来计算模型参数的梯度,并根据梯度来更新模型参数,因此的值就是训练集的大小。
2025-04-20 16:07:40
935
原创 毛笔书体检测-hog+svm python opencv源码
链接:https://pan.baidu.com/s/1l-bw8zR9psv1HycmMqQBqQ?pwd=2ibp提取码:2ibp--来自百度网盘超级会员V2的分享。
2025-04-16 22:45:19
484
原创 人脸检测-人脸关键点-人脸识别-人脸打卡-haar-hog-cnn-ssd-mtcnn-lbph-eigenface-resnet python opencv源码(史上最全)
CNN(Convolutional Neural Network,卷积神经网络)是一种深度学习模型,广泛应用于计算机视觉任务,包括人脸检测、识别和分类。相比于传统方法(如Haar、HOG),CNN能够自动学习图像的多层次特征(如边缘、纹理、形状等),具有更高的检测精度和鲁棒性。CNN人脸检测的优势:高精度:能够检测不同角度、光照、遮挡的人脸。端到端训练:无需手动设计特征提取器(如Haar、HOG)。适应性强:适用于复杂背景、多人脸场景。
2025-04-16 22:38:16
1424
原创 深度学习-卷积层(代码+理论)python opencv源码(史上最全)
卷积(Convolution)是深度学习中最重要的技术之一,其历史可以追溯到上世纪八十年代。尽管这项技术已有近四十年的历史,但时至今日,它依然是各类神经网络模型的核心组成部分。那么,究竟什么是卷积呢?许多初学者第一次接触“卷积”这个概念时,往往会联想到数学中的卷积定义——即“卷积是通过两个函数f和g生成第三个函数的数学算子,表征函数f与g经过翻转和平移后的重叠部分函数值乘积对重叠长度的积分”。然而,这样的数学解释虽然严谨,却容易让人望而生畏。
2025-04-14 19:26:41
842
原创 小节:MNIST理解第一二章 python opencv源码(史上最全)
下面是几个手写的数字,像素非常低。人脑可以很轻易的看出来这些数字是3、7、6,但让计算机去识别出手写的数字和文字,却是一个难题,因为电脑的世界只是二进制的。下面是几个手写的数字,像素非常低。人脑可以很轻易的看出来这些数字是3、7、6,但让计算机去识别出手写的数字和文字,却是一个难题,因为电脑的世界只是二进制的。更鬼扯的事情是,上图中的两个数字3,投射到人的视网膜中之后,可以说是非常不一样,但人脑就是可以认识到,这两个手写的数字都是3。但是电脑做不到。图源。让机器认识一个手写的0~9的数字,是不是很难?
2025-04-14 10:50:25
736
文件夹包含多个与M10激光雷达相关的文件和资料,包括软件安装包、产品手册、数据分析文件和示例程序 用户可以通过这些资源快速了解和使用M10系列激光雷达设备,涵盖了产品使用手册、数据采集与分析、接口调试
2025-04-27
hog+svm识别毛笔字体,毛笔字类型
2025-04-14
包含haar检测人脸、HOG检测人脸、CNN检测人脸、SSD检测人脸、MTCNN检测人脸、人脸检测训练模型、resnet人脸关键点检测、人脸识别、人脸打卡等
2025-04-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人