司南1901-CSDN博客

原创视觉基础模型(VFMs)

视觉基础模型（VFMs）是计算机视觉领域的通用预训练模型，通过自监督学习处理多样化视觉数据，具备零样本泛化和多模态能力。典型模型包括CLIP（图文对齐）、DINO（自监督特征提取）和SAM（通用图像分割）。VFMs显著减少标注依赖，可快速适配医疗、遥感等跨领域任务，其技术优势在于模型融合、持续预训练和3D理解发展。相比传统CV模型，VFMs具有更强的泛化能力和多模态处理特性。应用时需根据任务特性选择模型组合，并注意领域适配和算力需求。VFMs正成为AI视觉系统的核心组件。

2026-02-21 16:55:54 351

原创 ArcGIS避路采样点生成技巧

摘要：本文介绍在ArcGIS中生成规则分布采样点并避开道路区域的方法。主要步骤包括：1)准备研究区域影像和道路线图层；2)为道路创建50米缓冲区；3)使用渔网工具生成规则网格点；4)通过"按位置选择"或"擦除"工具剔除落在道路缓冲区的点。该方法适用于生态调查、环境监测等需要避开特定区域的专业采样场景，最终可获得符合要求的规则分布采样点。

2025-09-18 16:25:42 616

原创卷积神经网络中的7大核心卷积块解析

卷积块是CNN的基本构建单元，通常由卷积层、归一化层和激活函数（如Conv-BN-ReLU）组成。常见结构包括：标准卷积块（VGG）、多分支Inception模块（GoogLeNet）、残差块（ResNet）、密集连接块（DenseNet）以及轻量化的深度可分离卷积（MobileNet）。不同结构通过多尺度特征、残差连接或通道注意力等机制优化特征提取效率。设计时需权衡精度、速度和参数量，根据任务需求选择适合的卷积块类型。

2025-08-22 09:32:58 1197

原创深度学习模型分类全图谱

深度学习模型主要分为10大类：1)前馈神经网络(MLP)；2)卷积神经网络(CNN)，包括经典架构(ResNet)和轻量级模型(MobileNet)；3)循环神经网络(RNN/LSTM/GRU)，适用于时序任务；4)Transformer架构，主导NLP和视觉任务；5)生成模型(VAE/GAN/扩散模型)；6)图神经网络(GNN)；7)深度强化学习模型；8)自监督预训练模型；9)混合架构(CNN+Transformer)；10)模型压缩技术(剪枝/量化)。不同模型适用于不同场景：CNN处理图像，Transf

2025-08-21 11:39:39 409

原创机器学习模型分类全图谱

机器学习模型分类树全面梳理了主流机器学习方法：1）监督学习（含分类/回归算法，如SVM、决策树、神经网络等）；2）无监督学习（聚类、降维等）；3）半监督学习；4）强化学习；5）新兴的自监督学习；6）迁移学习；7）在线学习；8）元学习。该分类体系覆盖传统算法与深度学习方法，既包含基础模型（如逻辑回归、K-Means），也囊括前沿技术（如Transformer、对比学习）。不同类别适用于特定场景：监督学习需标注数据，无监督学习处理无标签数据，强化学习解决序列决策问题等。这种系统化分类为模型选择提供了清晰框架，反

2025-08-21 11:34:13 321

原创图像归一化：提升模型性能的关键步骤

图像归一化是计算机视觉任务的关键预处理步骤，主要包括Min-Max归一化（[0,1]）、对称归一化（[-1,1]）和Z-Score标准化三种方式。其核心作用是加速模型收敛、防止梯度异常并提升泛化能力。不同应用场景需选择特定方法：预训练模型推荐使用ImageNet统计值（均值0.485/0.456/0.406，标准差0.229/0.224/0.225），生成模型适合[-1,1]范围，而自定义小模型可采用简单的[0,1]归一化。处理时需注意不同图像格式（JPG/PNG等）的原始数值范围差异。

2025-08-21 10:21:44 752

原创 Python图片读取全指南

本文介绍了Python中读取图片的几种主流方法：Pillow支持多种格式适合图像处理，返回PIL对象需转NumPy；OpenCV返回BGR格式的NumPy数组，适合计算机视觉；matplotlib.pyplot返回RGB数组适合快速查看；imageio专业支持多种格式包括动画；scikit-image集成图像分析工具。所有库都能自动识别图片格式，无需针对不同格式使用不同函数。图片大小虽不影响函数选择，但会关系到内存和处理速度。建议根据应用场景选择工具，一般处理用Pillow/OpenCV，特殊格式用imag

2025-08-21 09:48:33 850

原创解密卷积：深度学习的视觉基石

卷积是深度学习中处理网格数据（如图像）的核心操作，本质是一种局部加权求和的滑动窗口机制，能高效提取空间特征。其三大优势在于：局部感知（关注邻域像素关系）、权重重用（大幅减少参数量）和平移等变性（物体移动不影响识别）。相比全连接网络，卷积更符合图像的空间相关性特点，通过多层堆叠实现从边缘到语义的层次化特征提取。这一机制不仅适用于图像（2D卷积），还可推广到语音（1D）、视频（3D）等多种数据形式，成为深度学习处理具有局部相关性数据的通用范式。

2025-08-03 16:52:26 684

原创 ROC与PR曲线：分类模型评估指南

ROC和PR曲线是评估二分类模型的重要工具。ROC曲线以FPR为横轴、TPR为纵轴，适用于类别均衡场景；PR曲线以Recall为横轴、Precision为纵轴，更适合类别不平衡问题。本文对比了两者的特点、指标公式和应用场景，并通过Python示例展示了如何在sklearn中绘制这两种曲线，最后以疾病检测为例说明PR曲线在类别不平衡时的优势。建议结合使用两种曲线全面评估模型性能。

2025-07-21 22:02:10 726 1

qq_53922490的博客