- 博客(16)
- 资源 (20)
- 收藏
- 关注
原创 用flask搭建yolo11检测服务
本项目基于YOLOv11n模型构建了一套完整的计算机视觉目标检测系统,采用Flask框架实现RESTful API服务部署。系统包含服务端和客户端两部分,支持图像上传、目标检测、结果可视化等功能。服务端使用PyTorch和Ultralytics库加载YOLO模型,通过OpenCV处理图像并绘制检测结果;客户端提供Python调用示例,支持返回检测数据或可视化图像。项目采用模块化设计,包含模型加载、图像处理、API接口等组件,支持CUDA加速,并提供了健康检查接口。该方案可作为深度学习模型服务化部署的参考实现
2025-12-27 22:31:30
12
原创 SAM3实战(五)基于图像提示的正向图像检测
摘要:SAM3通过图像提示实现交互式目标检测,支持以坐标框作为输入提示。代码示例展示了如何使用矩形框提示(格式为x,y,w,h)进行检测:先加载图像和模型,将输入框转换为归一化坐标,通过add_geometric_prompt接口传入提示框(label=True表示正向提示),最终输出原图与检测结果对比图(红框为提示区域,绿框为检测结果)。该功能体现了SAM3无需特定训练即可实现开放世界实例识别的优势。
2025-12-21 15:58:54
61
原创 SAM3实战(四)基于多文本提示的多标签检测
SAM3通过统一的视觉Transformer架构,将图像分割与多类别检测任务深度融合。模型利用多模态信息交互机制,在单一前向推理过程中同时输出像素级分割掩码和物体检测框,实现了对复杂场景中多个类别目标的高效、协同识别与精确定位。关注我,每天分享深度学习知识,后台私信分享代码和模型。
2025-12-08 16:25:05
180
原创 SAM实战(三)-基于文本提示单标签的图像检测
本文介绍了一个基于SAM3模型的图像分割实现方法。首先加载预训练模型,然后通过文本提示(如"a dog")进行目标检测和实例分割。代码实现了原图、分割结果和掩膜叠加效果的可视化展示,包含图像加载、模型推理、结果处理和保存等功能。该方法利用SAM3Processor处理输入图像和文本提示,输出包含掩膜、边界框和置信度的分割结果,并通过OpenCV将三种视图(原图、纯分割区域、掩膜叠加效果)拼接保存。处理时间以毫秒级显示,适用于单张图像的快速分割任务。
2025-12-07 20:19:06
22
原创 SAM3实战(二)-环境配置
本文介绍了SAM3环境的配置方法。首先需要满足Python 3.12+、PyTorch 2.7+和CUDA 12.6+等环境要求。配置步骤包括:1)创建conda环境;2)安装PyTorch;3)下载GitHub代码并安装依赖项;4)可选安装notebook或训练环境;5)从HuggingFace下载模型(需申请key)。文中提供了详细的命令行操作指南和GitHub项目地址,为后续分割检测任务的实现奠定了基础。
2025-12-07 20:15:12
153
原创 SAM3实战(一)
SAM3是Meta推出的第三代开放词汇分割模型,通过多模态提示(文本/图像/混合)实现精准概念分割,支持400万+视觉概念。其创新点在于解耦识别与定位任务,采用共享视觉编码器和双路径架构,在LVIS数据集上达到48.8 MaskAP,推理速度达30ms/帧。该模型显著提升了视频追踪稳定性和交互式分割效率,性能接近人类水平。
2025-12-06 23:39:14
56
1
原创 图像分类经典网络介绍Image Classification-(一)
图像分类模型从LeNet到EfficientNet经历了显著演进。LeNet开创了CNN在手写数字识别中的应用;AlexNet首次在ImageNet上成功训练深度网络;VGG通过小卷积核堆叠实现深度规整化;GoogLeNet采用多尺度并行处理提高特征丰富性;Inception系列通过卷积分解提升计算效率;ResNet和DenseNet分别通过残差连接和密集连接解决深度网络梯度问题;MobileNet系列专注于移动端高效部署;EfficientNet提出复合缩放策略平衡精度与效率。这些创新共同推动了图像分类技
2025-12-04 23:11:07
24
原创 labelimg安装和使用
本文介绍了conda虚拟环境的基本操作:1)查看环境(conda env list);2)删除环境(conda remove/删除目录);3)创建标注环境(labelimg)。详细说明了创建labelimg环境的步骤:新建Python3.8环境、激活安装、运行使用,包括标注保存设置(W键标注、自动保存等)。文章提供了完整的虚拟环境管理和图像标注工具使用指南。
2025-11-25 00:25:58
35
原创 deepsort跟踪算法
DeepSORT是一种改进的多目标跟踪算法,在SORT基础上引入深度外观特征实现更鲁棒的跟踪。其核心包括:1)卡尔曼滤波预测目标位置;2)深度特征提取网络获取外观描述符;3)级联匹配策略结合马氏距离(运动)和余弦距离(外观)进行数据关联;4)轨迹管理机制处理轨迹创建、确认和删除。相比SORT,DeepSORT显著减少了ID切换,但对计算资源需求更高,且依赖检测质量。该算法通过运动与外观信息的有效融合,在准确性和实时性之间取得了良好平衡,成为多目标跟踪领域的基准算法。
2025-11-24 22:32:41
25
原创 sort算法原理
SORT算法是一种基于目标检测框的实时多目标跟踪方法,其核心在于卡尔曼滤波预测和匈牙利算法数据关联。算法流程包括:1)检测当前帧目标;2)预测已有轨迹位置;3)通过IoU计算匹配检测与预测框;4)更新匹配轨迹,创建新轨迹或删除丢失轨迹。SORT优势在于计算速度快、实现简单,但存在ID易切换、无法处理长时间遮挡等缺陷。
2025-11-20 22:48:39
39
原创 构建python虚拟环境
本文介绍了Linux系统下5种主流Python虚拟环境管理方法:1)内置venv模块;2)virtualenv工具;3)conda/miniconda;4)pipenv;5)poetry。详细说明了每种方式的创建、启动和退出操作,并给出适用场景建议:普通项目推荐venv,数据科学项目适合conda,Web开发推荐poetry,团队协作可考虑pipenv/poetry。选择应基于项目需求、团队习惯和应用场景。
2025-11-19 22:55:39
329
原创 SSD总结
优化:与之前two-stage对比,取消了候选窗口生成、不用特征重采样。特征图:基于vgg16的backbone,前面5个大的卷积层,后面f6/fc7也改成3*3和1*1卷积层,然后增加了(1*1&3*3配对的)四个卷积层,共11层,在4/7/8/9/10/11层上设置anchor,定位和预测(这点类似于早期的FPN,但没有特征叠加)定位方法:每个特征层上,计算当前多少个ancho...
2019-06-13 14:51:07
198
原创 mobilenetV3
1)类似于v1和v2版本,采用pw-dw-pw模式,类似于resnet的残差模块shortcut模式2)采用relu6/hardswish/hardsigmoid激活函数3)采用_squeeze_excitation_layer(类似于SENet,attention机制,avgpool--fc(relu6)--fc(hard-sigmoid),得到权重参数,乘到input上)4)通过m...
2019-06-05 20:22:12
1022
原创 opencv接口操作(图像、视频、摄像头)
1、读取图片Mat src_mat = imread("D:\\test.jpg")将D盘中命为test.jpg图片加载到内存中。C:Mat imread( const string& filename, int flags=1 )python:cv2.imread(filename, flags)string为图像路径,flags为加载图像标志位其中:-...
2019-05-15 17:47:27
740
原创 1-opencv基本介绍
opencv是开源的图像算法库,包含几百种视觉相关的图像算法,Opencv2.x API是在C++上测试通过的api,并不像1.x是在C上测试通过的。 opencv包含以下几个模块:1)Core functionality(core) :基础模块,主要定义包含数据基本存储单元的Mat等基本的数据类型,以及在其他模块中调用的基本函数2)Image Processing(...
2019-03-25 20:09:13
399
原创 一个男孩的星之梦
They used to say to one another, sometimes, supposing all the children upon earth were to die, would the flowers, and the water, and the sky be sorry? They believed they would be sorry. For, said they, the buds are the children of the flowers; and the lit
2010-06-08 19:55:00
673
图像特征提取比较相似性
2010-06-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅