- 博客(244)
- 收藏
- 关注
原创 硬核干货|深度学习训练 7 大核心参数全解析:从 num_workers 到数据集划分,调参不再踩坑(图像分类、目标检测)
深度学习调参总踩坑?GPU 利用率上不去、模型不收敛、过拟合难解决?这篇万字干货专为算法工程师、炼丹选手打造,系统拆解模型训练 7 大核心参数:num_workers 数据加载、batch size 批大小、学习率 LR 调度、epoch 迭代策略、优化器 / 损失函数 / 梯度闭环、数据增强流水线、数据集科学划分。
2026-01-04 07:30:00
1056
原创 Pytorch框架下三大组件torch的 Tensor 、torchvision.datasets.transforms.Module相机使用指南
本文以“动态图→自动微分→nn 模块→数据管道→torchvision 三件套”为主线,用 30 余个可运行代码片段串起 PyTorch 核心 API:对比静/动态图优劣,展示 Tensor 创建、属性、运算、聚合的完整操作清单;拆解 autograd 计算图与二阶导数玩法;结合 nn.Module/optim/DataLoader 给出训练闭环;聚焦 torchvision,演示一键加载 ImageNet 预训练模型、替换 FC 层微调、CIFAR-10 整批增强与可视化,覆盖分类/检测/分割任务。
2026-01-04 07:00:00
689
原创 Python实现从一个txt文本文件中读取图片名称,从指定的源文件夹中获取这些图片,并将它们保存到目标文件夹中
确保脚本文件、txt文件、源图片文件夹和目标文件夹路径正确无误即可。
2026-01-03 07:15:00
381
原创 目标检测【一文吃透 COCO 1.0 标注格式】5 大字段 + bbox 坐标系全解析,从此不踩坑!
目标检测标注完数据集导出COCO 1.0格式的JSON文件解读。从顶层 JSON 到核心三表,本文用一张脑图 + 三段代码,把 COCO 1.0 的 categories、images、annotations 字段及 [x,y,w,h] 坐标系掰开揉碎讲清
2026-01-03 07:00:00
835
原创 NPU、RKNN、TPU、GPU、FPGA 大乱斗:2025 最强 AI 加速芯片选型指南
一文看懂 NPU/RKNN 量化黑魔法,对比 GPU/TPU/FPGA 性能、功耗、灵活性,给出手机、边缘、云端场景实测数据
2026-01-02 11:14:44
1072
原创 姿态识别领域简史和发展:开源工具使用
1963年实验室“画板”涂鸦,到今天手机30 FPS实时骨架,姿态识别靠四次技术换轨完成跃迁:模板→部件→CNN→多模态3D。一张路线图、两张速查表,带你速通核心算法、数据集与开源工具,秒懂它如何潜入安防、医疗、AR/VR。
2026-01-02 07:00:00
872
原创 关于Fast R-CNN 中全连接层双任务头的实现原理及与传统 FC8 的区别
这种设计不仅解决了 R-CNN 效率低下的问题,更实现了目标检测任务的端到端优化,为后续 Faster R-CNN 整合 RPN 模块奠定了核心基础。
2026-01-01 21:12:06
808
原创 关于Fast R-CNN中提到“共享卷积计算”和“空间金字塔池化”这两个紧密相连、推动目标检测发展的核心概念——解决R-CNN致命问题的钥匙
正是“共享卷积计算”与“RoI池化”的完美结合,才使得Fast R-CNN能够:极高效地生成图像特征(一次前向传播)。极灵活地处理任意数量和尺寸的候选区域。最终实现端到端的联合训练,在速度和精度上全面超越了R-CNN,奠定了现代目标检测的基石。
2026-01-01 20:19:59
838
原创 Linux下Ubuntu系统极速入门:从 ls 到 mv 的 7 大核心命令全解析
带你一次吃透 ls、cd、touch、cat、tail、mkdir、rm、cp、mv 高频操作,附权限位、颜色、通配、排序、备份技巧,复制粘贴即可干活。
2025-12-28 16:16:01
179
原创 深度学习pytorch实战七:从零复现经典R-CNN:完整代码+详细原理+训练调优+预测可视化:从数据采集、模型构建到训练部署
这是一篇2025年仍然具有学习价值的R-CNN完整复现教程。文章从R-CNN原始论文的核心思想讲起,详细拆解了「区域提议 + CNN特征提取 + SVM分类 + 框回归」的经典两阶段范式,并提供了目前还能较好运行的PyTorch完整实现代码(基于AlexNet/ResNet34 backbone + Selective Search)
2025-12-28 10:43:43
428
原创 Pascal VOC数据集划分的致命陷阱与最佳实践:为什么99%的开发者都该以JPEGImages图片文件夹为基准,而不是Annotations XML?
在目标检测项目中,Pascal VOC格式数据集的训练/验证集划分看似简单,却隐藏着易导致崩溃的致命坑:基于Annotations XML划分会掩盖“有标注无图片”或标注损坏的脏数据,而以JPEGImages图片文件夹为基准则是现代工程的最佳实践。本文深入对比两种划分方式的优缺点、风险与适用场景,详细讲解标准操作流程、数据加载逻辑以及主流框架(如经典Faster R-CNN、MMDetection、YOLO系列)的推荐做法。无论你是处理自定义数据集还是工业级项目,掌握以图片ID为中心的鲁棒划分方法,都能显著
2025-12-21 20:36:53
641
原创 VOC vs COCO vs YOLO格式终极对比:2025年目标检测项目到底该选哪个标注格式?避坑指南+决策树
在目标检测项目中,数据集标注格式的选择直接影响开发效率与模型性能。VOC(XML)可读性强、适合调试,却冗余臃肿;COCO(JSON)信息最丰富、支持实例分割与关键点,已成学术研究与前沿模型事实标准;YOLO(TXT)极简高效、加载飞快,成为工业部署与YOLO系列训练的绝对主流。
2025-12-21 16:11:38
979
原创 Linux 系统中配置国内源下载时使用pip install 和conda install哪个快?
pip install纯 Python 库快conda 留着装系统级依赖或建隔离环境时再调用即可。
2025-12-19 21:07:19
236
原创 PASCAL VOC、ILSVRC和MS COCO三大竞赛核心数据集版本总节
从 PASCAL VOC 2012 开始,理解基础的目标检测流程和数据格式。使用 MS COCO 2017 训练和评估模型,应对更接近真实世界的复杂场景。在进行任何视觉任务前,使用在 ImageNet (ILSVRC 2012) 上预训练好的模型(如ResNet-50)作为骨干网络,可以极大地提升模型性能并加速收敛。
2025-12-14 00:37:33
845
原创 PASCAL VOC、ILSVRC和MS COCO三大竞赛简单介绍
PASCAL VOC是严谨的“出题者”,ILSVRC是颠覆的“引爆者”,而MS COCO是苛刻的“实战派”。它们共同构成了计算机视觉过去近二十年波澜壮阔的发展史。
2025-12-14 00:13:02
857
原创 Windos 10系统安装OpenPose的CPU版本过程说明和Release版本直接使用
优先GPU,无显卡慎装。详列自编译与官方Release双路线:git拉仓、bat下模型、CMake+VS2022编译,附常见报错修正。
2025-12-12 21:01:33
977
原创 关于R-CNN中Selective Search选择性搜索候选框原理+步骤+代码+参数详细说明
Selective Search 的核心是 “从细到粗的区域融合 + 多尺度 + 多维度相似性”,通过模拟人类视觉的分组过程,高效生成覆盖所有潜在目标的候选框。其实现流程清晰(预处理→分割→金字塔→融合→后处理),工程参数可根据场景调优,是理解目标检测候选区域生成的基础算法。尽管已被深度学习方法取代,但对其原理的掌握,能帮助从业者更深刻地理解目标检测的核心挑战(覆盖完整性、效率、精准度)。
2025-11-23 18:27:33
1023
原创 深度学习之迁移学习简单介绍说明
迁移学习(Transfer Learning, TL)是深度学习中高效利用已有知识解决新任务的核心技术,尤其在目标检测等数据标注成本高、训练资源需求大的场景中,已成为工程落地的必备方案。
2025-11-22 23:56:37
475
原创 python绘制任意文件夹的目录结构树:争对2025年“华为杯”第二十二届中国研究生数学建模竞赛“E题数据集读取
递归扫描任意文件夹,终端一键输出树状目录,支持中文、可选大小、自动保存,秒得文档级结构。
2025-11-22 13:21:34
185
原创 传统机器学习算法:基于手工特征
基于手工设计的特征和传统的机器学习算法精准地描述了2012年以前目标检测技术的核心特点。虽然这些传统方法在特定任务上仍有其价值(如在计算资源极其有限的嵌入式设备上),但如今的目标检测领域已经几乎完全被基于深度学习的方法所主导,因为它们提供了前所未有的精度和效率。
2025-11-16 21:14:52
690
原创 目标检测标注工具常用的三种:LabelImg、CVAT、Roboflow
LabelImg是轻量级本地标注工具,适合个人或小项目,支持矩形框标注及PASCAL VOC/YOLO格式,数据隐私性好但功能单一。 CVAT是开源Web平台,功能全面,支持目标检测、分割及关键点标注,内置自动化模型,适合专业团队协作,但需自行部署服务器。 Roboflow是云端SaaS平台,集成数据标注、增强、模型训练全流程,AI自动标注效率高,适合团队协作与全流程管理,但敏感数据需考虑隐私问题。
2025-11-08 08:00:00
939
1
原创 2025年“华为杯”第二十二届中国研究生数学建模竞赛“E题”思路解析+理论方法需要弄懂的知识点+实现代码+论文撰写+摘要撰写注意事项,全网最详细讲解了吧
2025年中国研究生数学建模竞赛试题E题全流程:从MATLAB数据清洗、小波去噪、FFT+CNN提特征,到迁移学习+SHAP可解释,附Python代码与调参技巧
2025-09-21 17:41:52
4781
原创 气象数据格式处理——Python库、CDO、NCL或shell命令行工具使用
本文介绍气象数据处理的关键工具。CDO是多功能命令行工具,支持多格式数据处理,操作丰富。netCDF4库用于读写netCDF格式,是处理模式输出等数据的基础。GRIB/GRIB2是主流二进制格式,pygrib和cfgrib为其处理工具,后者可对接xarray。xarray简化多维数据处理,Cartopy则专注地理数据可视化。文中还包含各工具安装方法,助气象工作者高效处理数据。
2025-08-18 21:05:26
865
原创 基于pychrm工具的python读取 USB 摄像头(实时+保存录像+摄像头信息打印+镜像)—— OpenCV库
介绍了使用Python和OpenCV库操作USB摄像头的完整指南。主要内容包括:1) 基础摄像头捕获和显示功能实现;2) 获取摄像头参数信息(分辨率、帧率、亮度等);3) 实时视频流录制保存为MP4文件;4) 视频翻转功能实现(水平/垂直/同时翻转)。文章提供了详细的代码示例,涵盖摄像头索引切换、参数设置、视频编码和文件保存等实用技巧,适合计算机视觉初学者快速上手USB摄像头开发。所有代码都经过测试,可直接用于实际项目开发。
2025-08-18 21:04:32
816
原创 两种格式数据介绍——bin 、 yuv文件
一文秒懂场景存储:bin存点云/IMU等元数据,YUV存原始RGB帧,10帧示例手把手教你写文件头+裸数据,自动驾驶数据录制不再踩坑!
2025-08-06 21:49:42
1058
原创 GitHub 新手上传代码到远程仓库教程——Windows10系统
本文手把手教你从零开始使用 Git 与 GitHub 上传代码, Git 安装Windows,GitHub 注册与仓库创建、基础配置(用户名/邮箱)等准备工作。详细讲解两种上传方式:推荐新手使用“克隆仓库后添加文件”法,以及本地已有项目直接关联远程仓库的方法。文中配有命令行步骤与常见问题提示,适合初学者快速上手版本控制与代码托管。
2025-08-06 21:48:58
539
原创 Windows10系统使用Cmake4.1.0构建工具+Visual Studio2022编译Opencv4.11教程
本文Windows下Cmake4.1.0与OpenCV4.11源码编译流程:下载对应版本、解压、配置环境变量、用CMake-GUI生成VS2022工程,关闭易错模块后编译ALL_BUILD生成Debug/Release库,零报错完成部署。
2025-07-27 13:56:10
1511
1
原创 争对C++开发VS2022安装——Microsoft Visual Studio2022从下载到安装步骤教程(超详细)
本文手把手介绍如何下载并安装 Visual Studio 2022 Community 版:从官网获取安装包,管理员运行,勾选 C++ 开发组件,自定义英文路径,完成安装后自动启动,最后演示用 VS2022 打开项目 .sln 文件进入开发界面。
2025-07-27 00:54:02
5087
原创 关于新学C++编程Visual Studio 2022开始,使用Cmake工具构建Opencv和SDK在VS里编译项目开发简介笔记
本笔记主要介绍了C++项目开发中常用的工具及其作用。首先阐述了build文件夹的重要性,强调其在分离源码与编译产物、优化项目结构方面的作用。接着介绍了VS解决方案管理器(.sln文件)的功能,包括整合项目资源、记录配置信息和关联开发环境等。CMake作为跨平台自动化构建工具,通过CMakeLists.txt实现项目编译配置与平台解耦。最后,讲解了SDK的概念及其在开发中的重要性,指出不同SDK的差异及应对方法。
2025-07-25 11:18:22
1081
原创 管理项目环境和在环境中使用conda或pip里如何查看库版本———Linux命令行操作
通过以上方法,你可以轻松管理项目依赖并确保环境一致性。
2025-07-21 20:26:56
726
1
原创 深度学习之目标检测YOLO简介和YOLO v1模型算法流程详解说明(超详细理论篇)
YOLO(You Only Look Once)是一种实时目标检测算法,它创新性地将目标检测转化为单次前向传播的回归问题,通过单一神经网络同时预测目标边界框和类别概率,极大提升了检测速度。YOLO v1将输入图像划分为S×S网格,每个网格预测B个边界框、置信度及C个类别概率。其网络架构包含24个卷积层和2个全连接层,损失函数由边界框坐标误差、置信度误差和分类误差组成,通过权重因子平衡各任务贡献。训练时,先在ImageNet上预训练前20层卷积层,再微调后续层,并采用数据增强技术提升泛化能力。
2025-06-19 14:39:59
4891
1
原创 机器学习监督学习实战七:文本卷积神经网络TextCNN对中文短文本分类(15类)
本文介绍了一个基于TextCNN模型的文本分类项目,使用今日头条新闻数据集进行训练和评估。项目包括数据获取、预处理、模型训练、评估测试等环节。数据预处理涉及清洗文本、中文分词、去除停用词、构建词汇表和向量化等步骤。TextCNN模型通过卷积层和池化层提取文本特征,并在训练过程中记录准确率和损失。最终,模型在测试集上达到了较高的准确率(84.06%),并生成了混淆矩阵可视化。项目还详细介绍了TextCNN模型的结构和创新点,以及数据预处理和模型训练的具体实现代码。
2025-06-16 23:21:26
1022
6
原创 机器学习监督学习实战六:五种算法对新闻组英文文档进行文本分类(20类),词频统计和TF-IDF 转换特征提取方法理论和对比解析
介绍了20 Newsgroups数据集,分为20个不同主题的新闻组,使用了CountVectorizer和TfidfVectorizer两种方法将文本数据转换为数值特征,最终选择了TF-IDF特征用于模型训练和评估。通过10折交叉验证评估了多种算法的性能,其中SVM和LR表现较好。进一步对逻辑回归进行了网格搜索调参准确率达到0.9214%,最终在测试集上验证了调参后的模型准确率、精确率、召回率等。
2025-06-09 16:19:52
982
原创 机器学习监督学习实战五:六种算法对声呐回波信号进行分类
通过10种机器学习算法比较,发现集成学习方法表现最优。首先对特征进行可视化分析,对比了基础算法和集成算法的10折交叉验证准确率。结果显示标准化后模型性能提升,其中额外树(ExtraTrees)表现最佳(准确率88.6%),并通过网格搜索优化超参数。最后利用SHAP值解释模型,揭示关键特征对预测的贡献度。
2025-06-07 15:58:46
1343
原创 机器学习监督学习实战四:九种回归算法对波士顿房价数据进行回归预测和评估方法可视化
机器学习中回归算法,对波士顿房价数据集进行预测,使用九种算法对比结果,其中用 MAE、MSE、MBE、RMSE 和 R^2 分数评价模型,最好的GBoost回归算法使用网格和随机搜索寻找最优参数,最终通过可视化展示真实值和预测折线图和拟合散点图。这些特征重要性、训练集和测试集的真实值与预测值的可视化、性能评估指标、模型的超参数用来作模型解释性。
2025-06-05 18:15:30
1400
原创 机器学习监督学习sklearn实战三:八种算法对印第安人糖尿病预测数据进行分类和比较
自动寻找随机森林模型在Pima Indians糖尿病数据集上的最优超参数组合。通过随机采样参数空间,高效地找到性能较优的参数组合。
2025-06-04 11:35:18
930
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅