自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

📷 图像处理践行者 | 传统算法 · 深度学习 · 多模态 | 分享实战经验与技术洞见,探索从像素到智能的无限可能。

“铠甲合体!”——当代码与光影共鸣,图像处理便是我的战斗形态。从传统算法的基础格斗,到深度学习的必杀技,再到多模态的终极形态转换。在这里,我记录每一次从“像素级”到“智能级”的进化。准备好,跟我一起变身!

  • 博客(243)
  • 资源 (1)
  • 收藏
  • 关注

原创 《图像分割简史》

本文系统综述了图像分割领域十年的技术演进。回顾了以 U-Net 为基石的 CNN 黄金时代,奠定编解码架构标准;解析了以 Swin-UNETR 为代表的 Transformer 时代,突破全局感知瓶颈;探讨了 SAM 与 MedSAM 引领的大模型纪元,开启提示驱动新范式。全文旨在梳理从像素级分类到“分割一切”的关键里程碑与未来趋势。

2026-01-26 17:44:53 867

原创 【Git版本控制】拉取 + 推送 + 克隆 + 连接 + 修改 + 删除 + 添加

Git配置文件.gitignore用于指定Git应忽略的文件和目录,不纳入版本控制。其核心作用包括排除临时文件、保护敏感信息、减少仓库体积和保持提交历史清晰。工作原理是Git读取项目中的.gitignore文件规则,在git add时自动排除匹配文件。注意事项:文件需提交到仓库,已提交文件需先移除才能忽略,支持多级目录配置和全局规则。 Git命令行操作五步法:1) git init初始化(首次);2) git add添加文件;3) git commit提交修改;4) git push首次推送;5) 后续直接

2023-11-20 10:47:54 2771

原创 【Conda虚拟环境】新建 + 激活 + 安装 + 查看 + 退出 + 删除 + 复制 + 导出 + 导入 + 更改

(1)创建虚拟环境(2)激活虚拟环境(4)查看虚拟环境(3)退出虚拟环境(5)删除虚拟环境(6)复制虚拟环境(7)导出虚拟环境(8)导入虚拟环境(9)更改虚拟环境的安装路径(10)在指定路径下,配置虚拟环境

2023-08-16 09:47:12 46141 8

原创 Opencv C++图像处理(全)

备注:以下源码均可运行,不同项目涉及的函数均有详细分析说明。

2023-04-29 00:04:15 12059 2

原创 【深度学习环境配置】Anaconda + PyCharm + CUDA + cuDNN + PyTorch + OpenCV

(1)【CPU版本】Anaconda(Python) + Pycharm + Pytorch(CPU) + Opencv(2)【GPU版本】Anaconda(Python) + Pycharm + CUDA + cuDNN + Pytorch(GPU) + Opencv

2023-02-23 02:00:00 26874 4

原创 六万字硬核详解:卷积神经网络CNN(原理详解 + 项目实战 + 经验分享)

深入解析卷积神经网络(CNN)的实际应用,全面整理并梳理了CNN的关键知识点。从基础概念到实战技巧,加速理解与实战,并解决实际问题。

2022-10-31 07:57:08 69302 39

原创 OpenCV图像处理(全)

备注:以下源码均可运行,不同项目涉及的函数均有详细分析说明。

2022-08-30 22:40:07 87621 74

原创 【OpenCV图像处理】漂移校正帧平均(Drift Corrected Frame Averaging,DCFA)

摘要:漂移校正帧平均(DCFA)是一种用于高分辨率成像的技术,通过校正图像漂移和帧平均来提升图像质量。该技术首先计算连续帧间的位移,通过图像配准对齐各帧,再进行加权平均以降低噪声。DCFA广泛应用于冷冻电镜、天文摄影等领域,解决了高倍率成像中的样品漂移和噪声问题。典型实现方法包括互相关、光流法和迭代对齐等算法,有效提高了图像的信噪比和清晰度。

2026-06-08 16:24:54 296

原创 【高性能播放器】1秒快进1000帧

该播放器是一款基于Python和OpenCV开发的工具,可将图片序列(JPG/PNG/BMP等)作为视频播放。支持实时变速播放(0.25x-64x)和极速模式(1000x)

2026-05-22 14:21:10 414

原创 【OWLv2】开放词汇目标检测

OWLv2(Open-World Localization version 2) 是Google DeepMind提出的开放词汇目标检测模型。其核心创新是自训练方法OWL-ST,将训练数据扩展至十亿级,大幅提升零样本检测性能(稀有类别AP提升43%)。支持图像引导检测(one-shot),可基于示例图寻找相似目标。但在电镜等专业科学图像中,因预训练数据分布偏移,泛化能力受限。

2026-05-15 15:21:45 614

原创 Obsidian 与 Obsidian Skills 小白入门

Obsidian是一款本地优先的笔记工具,核心功能是通过双链将笔记连成知识网络。Obsidian Skills是一组帮助AI处理Obsidian内容的技能说明,包含5个主要功能:生成规范笔记(obsidian-markdown)、整理网页内容(defuddle)、组织笔记视图(obsidian-bases)、创建思维画布(json-canvas)以及与运行中的Obsidian交互(obsidian-cli)。用户只需提出需求,AI会自动选择合适的技能生成文件,用户再在Obsidian中查看和使用这些文件。

2026-04-30 17:59:46 660

原创 《AI编程通识》

本文系统梳理了AI辅助编程的演化阶段与核心范式。

2026-04-28 16:38:11 753

原创 【龙虾大战】OpenClaw + QClaw + WorkBuddy

本文系统梳理了三款代号为“虾”的智能工具产品。首先介绍开源工具 OpenClaw(开源虾),侧重其开放生态、核心功能与当前存在的局限性;其次分析腾讯电脑管家旗下的 QClaw(本地虾),聚焦其在本地系统管理、安全防护方面的产品信息与功能亮点;最后解读腾讯云的 WorkBuddy(办公虾),展示其在办公协同、云服务集成等场景下的核心能力。通过对比三款产品的定位、功能与不足,帮助读者快速选择适合自身场景的“虾”系工具。

2026-04-16 09:44:43 1149

原创 【Codex】安装 + 配置 + 使用指南

Codex是由OpenAI开发的AI编程助手,集成在ChatGPT高级套餐中,能够帮助开发者编写代码、理解复杂代码库、进行代码审查和自动化开发任务。它支持在IDE中直接操作代码库,包括导航、编辑、执行命令和运行测试。用户可以通过API或账号登录使用Codex,并灵活配置其推理强度、响应风格和工作模式(如快速模式或计划模式)。Codex还提供技能扩展功能,允许安装预制技能包或创建自定义技能。对于Windows用户,可通过npm安装Codex CLI工具,支持交互式对话和命令行直接执行编程任务。该工具能显著提升

2026-04-15 16:50:32 1839

原创 【Google AI Studio】模型运行配置面板(详解)

文章摘要: Google AI Studio的模型配置面板提供多项参数调整功能。在模型配置部分,Gemini 3 Flash Preview作为轻量级模型适合实时交互场景,系统指令可设定行为准则且优先级高于用户输入,No API Key状态表示免费匿名使用但有诸多限制。基础配置中,Temperature参数控制输出随机性,Media resolution决定媒体解析精度,Thinking level影响推理深度。工具配置中的Structured outputs功能可强制模型输出结构化数据,便于程序处理。这些

2026-04-08 11:46:52 668

原创 【OpenClaw】安装 + 配置 + API(Kimi + DeepSeek) + 启动 + 更新 + 卸载 + Skills + 飞书

OpenClaw(小龙虾)是一个支持技能扩展的AI工具,通过配置API密钥(推荐DeepSeek,按量付费成本极低)即可使用。它提供Web控制台和终端两种交互方式,并可通过ClawHub安装各类技能来增强功能。支持接入飞书,适用于办公自动化场景。

2026-03-13 14:54:16 4165

原创 【PyTorch项目实战】孪生网络Siamese —— 用于相似性度量和匹配任务

孪生网络(Siamese Network)是一类通过共享权重子网络提取特征并计算相似度的深度学习结构。自1993年手写签名验证起,历经小样本学习、度量学习、实时目标跟踪与文本语义匹配发展,形成经典模型体系,包括Siamese TDNN、Siamese CNN、FaceNet、SiamFC、SiamRPN++及Siamese-LSTM,在视觉、文本及跨模态任务中广泛应用。

2026-02-26 17:07:45 802

原创 【OpenCV图像处理】霍夫变换 + 广义霍夫变换

本文介绍了基于特征点匹配和广义霍夫变换的扩展目标跟踪方法,重点解析了霍夫变换的核心原理与实现步骤。霍夫变换通过将图像空间的几何形状检测转换为参数空间的投票问题,可有效检测直线、圆等形状。其核心在于利用极坐标表示直线,通过点到曲线的映射和共线点交点检测实现形状识别。算法步骤包括边缘点提取、累加器初始化和投票过程,其中边缘检测质量直接影响最终效果。广义霍夫变换(GHT)相比标准霍夫变换(SHT)能处理任意形状目标,通过R-表描述形状特征,利用梯度信息实现更灵活的物体检测。该方法为复杂场景下的目标跟踪提供了有效解

2026-02-05 10:06:12 968

原创 【PyTorch项目实战】DINO系列(自监督 ViT 表征学习)

DINO是一种无标签自监督视觉表征学习方法,通过自蒸馏与ViT架构结合,让模型从不同视角的同一图像中学习稳定、语义化的特征。其核心创新包括:1)采用学生-教师网络架构,教师网络通过EMA从学生网络更新参数,提供稳定的伪监督信号;2)引入多尺度裁剪策略,增强特征鲁棒性;3)通过温度缩放和中心化机制防止表示塌缩。该方法在目标检测、图像检索等任务上表现优异,且能自发学习语义注意力结构,显著降低对人工标注的依赖。

2026-02-04 18:00:56 946

原创 【PyTorch项目实战】FastSAM(快速分割一切)

Ultralytics YOLO生态系统提供了目标检测、实例分割等多项AI任务支持,包含丰富的预训练模型和Web工具HUB。其中FastSAM是基于YOLOv8-seg的高效分割模型,通过"先全分割后提示匹配"的策略实现实时推理。模型采用CSPDarknet骨干和PANet特征融合,提供轻量版(-s)和精确版(-x)两种选择,前者速度达100+FPS适合边缘设备,后者精度更高但需要更强算力。FastSAM仅使用2%的SA-1B数据就达到与SAM相当的性能,证明了CNN架构在大数据训练下同

2026-01-26 10:18:10 801

原创 【Claude Code】安装 + 配置 + 使用指南

Claude是Anthropic推出的专注于安全性与工程可靠性的AI语言模型系列,包含Opus、Sonnet和Haiku三个层级模型,分别针对不同复杂度任务。其计费基于token,代码场景token消耗较大。 Claude Code是Claude的官方命令行工具,提供代码理解、Git变更分析、多轮交互等核心能力,支持CLI命令式和REPL交互式两种使用模式。安装需Node.js环境,在VSCode中可通过终端快速启动。 该工具特别适合代码审查、架构设计等工程场景,能像资深工程师一样理解代码上下文,并提供结构

2026-01-16 10:56:47 2295 1

原创 AI 编程工具的三次范式跃迁:代码级生成、文件级协作、项目级认知

本文系统梳理了 AI 编程工具从 2021 年至今的关键演进路径:从 Copilot 验证代码生成可行性,到 Cursor 重构编辑器交互范式,再到 DeepSeek 与 Trae 推动能力普惠化。文章进一步指出,当前阶段的核心分水岭已不在模型本身,而在于是否具备项目级理解与长期上下文记忆能力,这也是国内外 AI 编程工具形成阶段性差距的关键所在。

2025-12-31 10:20:06 1236

原创 FastAPI从入门到实战:打造高性能图像处理Web应用

FastAPI是一个基于Python的高性能Web框架,以其快速、易用和自动生成API文档等特点广受欢迎。本文介绍了FastAPI的基本使用,包括环境配置、创建Hello World应用、运行服务器以及自动生成的交互式API文档。通过示例代码演示了路径参数、查询参数和请求体的处理方式,展示了FastAPI结合Pydantic进行数据验证的能力。该框架特别适合需要快速开发RESTful API的场景,其自动类型检查和文档生成功能极大提升了开发效率。

2025-12-18 16:36:38 1080

原创 【PyTorch项目实战】YOLOE(实时感知一切)

摘要: Ultralytics YOLO 生态系统提供多任务支持,包括目标检测、实例分割、图像分类等。YOLOE是新一代视觉感知模型,统一了目标检测、实例分割等任务,具备实时性、多任务处理能力,支持文本/视觉提示和内部词汇表三种交互方式。其架构包含Backbone、Neck和Head三个模块,提供不同规模的模型(S/M/L等)以适应速度与精度需求。视觉提示分割(VPSeg)通过矩形框、掩码或类别ID引导模型关注特定区域,但对不封闭目标或未训练数据表现受限。YOLOE支持自动下载预训练权重,简化部署流程。

2025-12-10 10:31:10 1206

原创 【PyTorch项目实战】SAM3:概念分割 + 3D重建(模型 + 人体)

SAM 3是Meta推出的新一代通用图像分割模型,相比前代SAM/SAM2在性能上有显著提升。核心创新包括提示式概念分割(PCS)任务、解耦识别架构、多模态提示融合等。支持图像分割、视频跟踪、开放词汇识别等功能,推理速度更快(A100上<200ms)。新增400万条概念标签数据,扩展了开放词汇理解能力。应用场景涵盖图像/视频标注、多目标跟踪等,但3D重建精度仍有提升空间。

2025-11-30 12:07:10 1736 5

原创 【PyTorch项目实战】Swin-Unet:用于医学图像分割的类Unet纯Transformer模型

本文介绍了Swin-Unet,一种基于纯Transformer架构的医学图像分割模型。Swin-Unet通过将Swin Transformer与U-Net结构相结合,构建了首个完全摒弃卷积的U型分割网络。该方法利用移位窗口自注意力机制(SW-MSA)实现全局上下文建模,同时通过层次化特征提取和多尺度融合保留局部细节。实验表明,Swin-Unet在医学图像分割任务中超越了传统CNN方法,标志着从卷积主导到Transformer驱动的技术过渡。文章还梳理了医学分割技术的发展历程,从早期CNN模型、Tran

2025-11-19 14:07:08 1562

原创 【OpenCV图像处理】深度学习:cv2.dnn() —— 图像分类、人脸检测、目标检测

OpenCV DNN模块提供高效的深度学习推理能力,支持加载多种框架的预训练模型(Caffe/TensorFlow/ONNX/YOLO等),无需依赖完整深度学习框架。其核心优势包括轻量级部署、多硬件支持(CPU/GPU)和丰富的计算机视觉任务应用(分类/检测/分割等)。典型使用流程为:加载模型→预处理输入→前向传播→解析输出。以GoogleNet图像分类为例,需下载.prototxt网络结构、.caffemodel权重及类别标签,通过cv2.dnn.readNetFromCaffe()加载模型,blobFr

2025-11-17 11:08:40 1263 2

原创 【OpenCV图像处理】级联分类器:cv2.CascadeClassifier() —— 目标检测(猫脸/人脸/眼睛/微笑/全身/车牌)

Haar 级联分类器(Haar Cascade Classifier):是 OpenCV 中一种基于 Haar 特征 和 AdaBoost 分类算法的物体检测方法,广泛应用于人脸、眼睛、行人等物体的检测。

2025-11-14 10:15:24 946

原创 【OpenCV图像处理】图像去噪:cv2.fastNlMeansDenoising()

cv2.fastNlMeansDenoising() 是一种基于非局部均值去噪(Non-Local Means, NLM)的方法,旨在去除图像中的噪声。其核心思想是在图像的局部区域内,通过计算相似性并加权平均周围像素的值来减少噪声,同时保持图像的细节和边缘。

2025-11-13 16:21:48 1360

原创 【OpenCV图像处理】模板匹配:cv2.matchTemplate() —— 具有尺度与旋转不变性(开发)

本文摘要:针对高分辨率模板与低分辨率原图的尺寸不变匹配需求,提出两种解决方案:(1)单尺度手动缩放匹配,通过预定义缩放因子调整模板尺寸;(2)多尺度金字塔自动搜索,在0.1-1.0范围内迭代寻找最优匹配。两种方法均采用OpenCV的模板匹配算法(TM_CCOEFF_NORMED),其中自动方法能适应未知缩放比例,输出最佳匹配位置、分数及缩放系数。实验结果表明,该方法有效解决了传统模板匹配对尺寸敏感的痛点,适用于不同分辨率但相同尺寸的医学/工业图像匹配场景。

2025-11-10 18:16:26 1324

原创 【OpenCV图像处理】特征点匹配:cv2.BFMatcher() + cv2.FlannBasedMatcher() —— 多目标检测(开发)

本文介绍了图像特征点匹配技术的关键概念与应用。特征点匹配通过提取图像关键点(SIFT、ORB等算法)并计算特征描述子,实现不同图像间的特征对应。文章详细分析了特征点匹配的优缺点:具有尺度、旋转、光照不变性等优势,但存在计算复杂度高、纹理依赖性强、大视角变化敏感等局限。同时提供了完整的算法流程(检测→描述→匹配→筛选→可视化)和OpenCV相关函数分类表,包括12种特征检测器和6种特征描述子实现方法。文章指出该技术适用于图像拼接、三维重建等场景,但在实时应用或低纹理环境中需谨慎使用,建议结合其他技术弥补不足。

2025-11-07 18:30:57 1560 2

原创 【图像增强】去条纹 + 去暗角 + 去模糊 + 去噪 + 超分

本文总结了四种图像处理算法:图像去模糊采用反卷积RL算法,通过迭代更新图像估计值;去条纹使用FFT频域滤波方法,适用于自然图像与荧光图像;去暗角算法用于消除图像边缘暗区;去噪算法提供了五种方法,包括计算复杂度、边缘保留性及适用场景的对比,重点介绍了自适应方向保持去噪算法,该算法结合结构张量与方向性高斯加权滤波,能有效保留SEM图像中的纤维状微结构。

2025-11-04 16:04:40 1130

原创 坐标系旋转(四元数 + 欧拉角 + 轴角表示 +旋转矩阵)

在三维空间中,旋转可以通过多种方式表示,其中最常见的包括欧拉角、旋转角-轴表示法(旋转角)和四元数。它们各自有不同的应用场景和优缺点。

2025-10-22 18:09:47 1487

原创 Streamlit是什么?

Streamlit是一个开源Python框架,可快速将数据分析脚本转换为交互式Web应用,无需前端知识。其特点包括简单易用、实时更新、丰富组件(文本、输入控件、图表等)和快速部署。通过pip安装后,只需几行代码即可创建基本应用,如输入框和按钮交互。运行后自动生成本地Web界面,修改代码实时刷新,适合数据可视化展示。

2025-10-10 16:06:14 1237

原创 Hugging Face使用指南

本文介绍了大模型训练的完整流程,包括预训练、微调和后训练三个阶段。预训练阶段利用大规模无标注数据建立基础语言理解能力,微调阶段使用标注数据适配具体任务,后训练阶段通过SFT、RLHF等方法提升模型对齐能力和实用性。文章还详细介绍了Hugging Face生态系统及其核心组件,特别是accelerate框架如何简化分布式训练。最后提供了模型加载的API总览,涵盖从基本加载到高级配置的多种方法。整个训练流程需要大量计算资源和时间,但通过Hugging Face等工具可以显著提高效率。

2025-09-28 10:03:33 1503

原创 【PyTorch项目实战】多模态 - 视觉语言模型(Visual Language Model, VLM)

本文围绕国际大数据竞赛中的“拍照识题与解题”任务,系统介绍了模型选择、数据说明与多模态解决方案,重点采用Qwen2.5-VL-3B-Instruct实现题目识别、推理解答与答案提取的完整流程。同时通过项目实战展示数据集获取、环境配置与核心代码结构,并总结在参数规模受限条件下的性能瓶颈与微调必要性。

2025-09-25 15:58:03 1272

原创 大语言模型导论

大语言模型(LLM)全面综述:技术原理、应用与未来展望

2025-09-23 10:27:48 1090

原创 由浅及深:扫描电子显微镜(Scanning Electron Microscope,SEM)

本文系统梳理了显微镜技术从宏观到微观的成像能力,重点对比了不同显微镜的分辨率范围及特点。主要内容包括:1)按分辨率从低到高详细介绍了8种主流显微镜(光学显微镜至扫描隧道显微镜)及其典型分辨率;2)深度解析扫描电子显微镜(SEM)的定义、结构组成(电子光学系统、样品室系统等五大模块)和工作原理;3)提供从兆米到飞米的完整长度单位换算表,并列举典型微观尺度参照物。文章特别强调,SEM虽只能生成二维图像,但凭借极高景深可呈现立体视觉效果,真实3D结构需通过多角度扫描重建获得。

2025-09-08 10:51:27 1910

原创 【PyTorch项目实战】SAM(Segment Anything Model)

摘要:SAM(Segment Anything Model)是Meta AI研发的图像分割基础模型,具有强大的零样本分割能力。最新版本SAM3(2025)在SAM1(2023)支持的2D图像分割基础上,新增了视频对象跟踪、3D重建和多模态输入功能。模型通过ViT架构实现,支持点/框/掩码等多种交互提示方式,适用于医疗影像、自动驾驶、AR/VR等场景。各版本通过GitHub开源,并提供在线Demo体验。

2025-08-28 10:58:30 2048

原创 【PyTorch项目实战】文本翻译 —— 支持本地部署和自定义训练

OpenNMT是一个开源的神经机器翻译框架,支持本地部署和自定义模型训练,适用于科研和工业应用。它提供PyTorch和TensorFlow两种实现版本,支持Transformer、LSTM等模型架构,但不提供预训练模型。与Google Translate等云端工具不同,OpenNMT强调模型的可定制性和离线使用。用户可通过Hugging Face获取MarianMT等预训练模型进行本地翻译,或自行训练模型。该工具适合研究人员和企业用户,需要一定的技术基础配置使用环境。

2025-08-19 21:24:43 910

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除