自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(705)
  • 收藏
  • 关注

原创 双像素深度估计与去模糊:Dual Pixel 传感器 AI 实战

双像素传感器 AI 核心链路:左右子单元视差提取 → DPFeatureExtractor (Conv+Branch Split+fuse) → 任务头 (Depth/Deconv/Dehaze)。去模糊模型在合成数据上 PSNR=33.4, SSIM=0.92, 比传统盲去模糊高 5 dB。建议先用公开 DP 数据集 (?Google Dual Pixel Dataset) 预训练深度估计分支,再联合训练去模糊。双像素方案的优势在于单镜头即可实现视差,无需双目立体匹配。

2026-04-28 21:40:13 33

原创 图像配准:多分辨率 ORB + RANSAC 优化

图像配准链路:输入两帧 → 高斯金字塔 (3 level) → 每层 ORB (nfeatures∝分辨率) + BF Hamming → RANSAC 单应性 → 级联变换。1920×1080 图 RMSE 从单层 7.8 px 降到多分辨率 2.8 px, 时间从 620 ms 降到 270 ms。核心贡献:粗层先算大致变换 + 高层仅估计残差, 避免高分辨率下误匹配多的问题。建议先用单层 ORB 快速验证图像间是否有足够重叠 (<50%?

2026-04-28 21:39:42 33

原创 Instruct-IPT:多任务图像恢复(去雨/去雾/去模糊)

Instruct-IPT 链路:退化图像 (雨/雾/模糊/噪) → Swin-B Patch Embed → CLIP 文本编码 → 跨模态 Cross-Attention → IPT Backbone ×12 (W₀ + ΔW, ΔW=AB, r=16) → PixelShuffle 解码 → 恢复图像。4 任务 unified PSNR=35.1, 参数量 96M (对比 4 个单任务 256M 省 62%)。核心贡献:(1) 低秩权重调制解耦共享与任务特定参数;

2026-04-28 21:38:35 35

原创 CondConv 动态卷积:多专家加权 + PyTorch 模块实现

CondConv 动态卷积链路:多专家核 (n=4, 8) + 路由网络 (GAP→FC→Softmax) → 动态加权融合 → 卷积。在 CIFAR-10 上 ResNet18 + n=4 提升 0.6% Top-1 准确率 (92.4%), 参数量仅增 0.1%, 推理速度降 < 1%。建议 n 从 4 开始调, 优先替换网络深层 (stage3/4) 的 3×3 conv, 浅层保持标准 conv 以利训练稳定性。路由网络很小 (参数量 ≈ 0.01× 总参数), 几乎无额外开销。

2026-04-28 21:37:51 27

原创 FedU-Net:联邦学习 + BraTS 多模态脑肿瘤分割

FedU-Net 联邦脑肿瘤分割链路:BraTS 2021 (4 模态, 4 类) → U-Net (5.1M) + CE+Dice 损失 → Flower 5 客户端模拟, 20 轮 FedAvg 达全局 DSC=0.828 (比单机高 7.8 个百分点)。非 IID 场景下建议增大每客户端本地 epoch 到 10 或换 FedProx 聚合器。Opacus 差隐私噪声 σ=0.01 对 DSC 影响 < 0.5%, 适合医疗合规场景。

2026-04-27 21:39:51 30

原创 3D Faster R-CNN:肺部结节检测系统完整实现

3D Faster R-CNN 用 3D ResNet 提取体数据特征、3D RPN 生成锚点框(3D 卷积分类 + 回归)、Detection Head 做精细分类与定位。MONAI 负责 NIfTI 加载与标准化,关键超参数是锚点尺寸(覆盖 2-16 体素)和 RoI Align 的采样分辨率(7×7×7)。建议先用单例验证前向是否通,再用小数据集 (50 例) 调参数,确认 mAP 能收敛后再全量训练。

2026-04-27 21:38:07 318

原创 Open3D 点云连续播放:时序可视化 + 检测框联动

Open3D 点云时序播放链路:PCD 序列 → update_geometry 原地更新点云 (points+colors) → KeyCallback 控制 (Space/箭头/+/-) → 可选 OBB 检测框同步 (clear+add) → capture_screen_image 录制 PNG → FFmpeg MP4。核心贡献:update_geometry 避免 clear+add 闪烁;30 FPS 下带框播放仍流畅。建议大点云 (>500K 点) 提前下采样到 50K, 提升播放帧率;

2026-04-27 21:36:38 29

原创 RandLA-Net + SensatUrban:户外大规模点云语义分割实战

RandLA-Net + SensatUrban 全链路:原始.ply→ 网格下采样 (0.06m) + 分块 (50m) → Random Sampling (保留 40960 点) → 4 级 LFA (LocSE + Attentive Pooling + Dilated Res Block) → 13 类 softmax。训练 200 epoch (batch=6, lr=1e-2, lr_decay=0.95/500k) 可达 mIoU ≈ 56%。

2026-04-27 21:35:10 147

原创 YOLO26 智能安防检测:从训练到实时部署完整指南

YOLO26 安防检测全链路:LabelImg 标注三类别 (person/car/anomaly) → YOLO26n 训练 100 epoch (mAP50≈0.84) → ONNX 导出 3MB → Streamlit Web 界面。先用 COCO 预训练权重在自定义数据上调优,anomaly 类数据不足时用Roboflow做增强(翻转+旋转+马赛克),或用mixup=0.2合成样本。实时推理目标帧率 ≥ 25 FPS(YOLO26n 在 RTX 3060 上可达 120 FPS)。

2026-04-27 21:33:34 25

原创 YOLO26 物体检测毕设全流程:训练 + Streamlit 部署

YOLO26n 物体检测链路:5 类 (backpack/phone/laptop/book/pen) 120 epoch 训练 (mAP50=0.78) → Streamlit Web 界面支持图片/视频/摄像头推理。小目标 (pen) 和易混淆类 (phone/book) 需单独增加训练样本。建议先用 COCO 预训练 yolo26n.pt 快速跑通 (1h),再用 yolo26s.pt 精调提 mAP 5 个点。Streamlit 部署后可直接在浏览器中演示,适合毕设答辩现场展示。

2026-04-27 21:30:53 29

原创 YOLO26 入侵检测:自定义数据集 + Flask Web 部署全流程

监控摄像头 / 视频↓YOLO26 推理↓3 类检测├── normal_person (正常行人)├── intruder (入侵者)└── suspicious_object (可疑物)↓置信度 ≥ 0.5 + NMS↓输出: 边界框 + 类别 + 置信度↓Flask Web 界面 (上传 → 检测 → 告警)类别ID说明0正常行人, 守规矩的intruder1翻墙/闯入姿态2可疑包/工具/车辆。

2026-04-27 21:29:25 38

原创 YOLO26 厨房用品检测:模型训练 + PyQt5 实时界面

YOLO26s 厨房检测完整链路:标注 6 类 (pot/knife/cutting_board/vegetable/meat/fruit) → 80 epoch 训练 (mAP50=0.87) → PyQt5 桌面界面 (图片/摄像头/统计面板)。建议 yolo26s 在 RTX 3060 上训练约 2 小时,推理 30 FPS。弱光场景加入hsv_v=0.4和 50 张夜间样本可提升 3-5% mAP。

2026-04-27 21:28:04 126

原创 YOLO26 机器人障碍物检测:PyQt5 实时避障 + 路径规划

YOLO26s 机器人障碍物检测链路:4 类 (pedestrian/furniture/step/cable) 80 epoch 训练 (mAP50=0.86) → 实时推理 + distance_ratio 避障规则 (3 帧滑动投票) → PyQt5 界面。cable 小目标 mAP=0.74 需单独加强(copy_paste+ 特写样本),建议 Jetson Orin Nano 上 TensorRT 部署 < 30ms 推一帧。避障规则优先处理最近障碍物,行人动态场景减速等待比绕行更安全。

2026-04-27 21:26:56 264

原创 YOLO26 手势识别 + Tkinter 智能控制系统

推荐 YOLO26s (7.2M, 168 FPS) 平衡精度与速度;暗光场景需补充 100+ 低照度数据加 HSV 增强;UI 用 threading 分离推理和渲染避免界面卡顿。答辩演示时建议准备录屏视频防止现场摄像头兼容问题。

2026-04-27 21:22:16 27

原创 YOLO26 智慧农场检测:作物识别 + 病虫害诊断 + Streamlit 监测

场景挑战表现晴天基本无干扰高精度逆光亮度不均漏检增加杂草遮挡目标被遮盖召回下降多作物混种形态相似误检提升微小害虫目标 < 10px极易漏检田间摄像头/无人机↓YOLO26 推理 (conf≥0.5)↓后处理 (作物计数 + 病虫害定位)↓Streamlit 监测面板├── 实时检测画面├── 作物产量统计├── 病虫害预警└── 防治建议。

2026-04-27 21:09:05 26

原创 3D MRI 超分辨率重建:轮廓引导 GAN + MONAI 全流程

轮廓引导 GAN 做 3D MRI 超分辨率:各向异性 LR (1×1×3 mm³) → 轮廓提取 (梯度边缘) → cat 输入 ContourGuidedUNet (3.8M) + 3D PatchGAN 对抗训练 → SR (1×1×0.5 mm³, 各向同性)。PSNR=33.2 dB, SSIM=0.894, 比 Bicubic 高 4.8 dB。建议先用 2D 切片验证轮廓引导效果,再扩展 3D。轮廓提取质量直接影响重建精度,production 中用 HED 替代简单梯度。

2026-04-27 21:04:01 20

原创 SFFNet:小波变换频域分解 + 双分支遥感语义分割

SFFNet 遥感分割链路:RGB 遥感图 → Haar 小波分解 (level=1, 低频 256² + 高频 3×256²) → GlobalBranch (低频大核 7×7) + LocalBranch (高频卷积 3×3) → FusionModule (cat→128ch→上采样→seg) → mIoU=0.703 (Vaihingen, 6 类), 比 U-Net 高 6.1 个百分点。小波分解尺寸须对齐 (边长 2^level 倍数), 建议先用离线存 .npy 加速训练。

2026-04-27 21:01:40 27

原创 FedU-Net:联邦学习驱动的脑肿瘤 MRI 分割

用 Flower 框架实现 FedAvg,客户端本地上传梯度、服务器聚合后下发。差分隐私(梯度裁剪 + 高斯噪声)在隐私预算 ε<1.0 时,性能损失控制在 2-3%。建议先在单个客户端的 2D 切片上调试 U-Net,验证训练可收敛,再扩展到完整的 3D 联邦训练。BraTS 数据集的 Dice 目标:ET 0.80+、NCR 0.75+、ED 0.75+。

2026-04-27 21:00:00 23

原创 YOLOv11 训练报错全解:从 Loss 为 Nan 到精度跳水,让你一次搞定所有坑

某高校实验室因多卡训练配置错误,让 GPU 资源闲置一周。而掌握这些解决方案后,YOLOv11 训练的成功率可提升至 98%,模型精度达标率提高 40%。无论是科研论文的实验环节,还是企业项目的落地阶段,这套“排坑指南”都能让你在 YOLOv11 训练中一路绿灯。无论是科研中追求论文级精度,还是企业里赶项目工期,这套技能都能让你在 YOLOv11 训练中“兵来将挡,水来土掩”。别让报错成为你 AI 之路的绊脚石——现在就把这些方案融入你的训练流程,让每一次模型训练都能顺利收敛,每一个检测结果都能精准可靠!

2026-04-27 20:58:51 156

原创 CCFM与SENetV2双剑合璧:YOLOv11x8目标检测性能革新指南

购买即可解锁300+YOLO优化文章,并且还有海量深度学习复现项目,价格仅需两杯奶茶的钱,别人有的本专栏也有!

2026-04-27 20:58:35 110

原创 RandLA-Net + S3DIS 点云语义分割:TensorFlow 全流程

RandLA-Net + S3DIS 点云分割链路:S3DIS 室内场景分块 (10m, stride=5m) → 9 维特征 (xyz+RGB+法线) → 随机采样 (4096→2048→1024→512→256) → LFA (k=16, max+MLP) ×4 → 1×1 Conv Decoder → Softmax (13 类)。核心贡献:LFA 中的相对位置编码 + KNN max 聚合替代了密集 3D 卷积, 随机采样 O(N) 复杂度支撑百万级点云。

2026-04-27 20:58:09 20

原创 RandLA-Net 点云语义分割:S3DIS 全流程实现

RandLA-Net S3DIS 链路:S3DIS 原始点云分块 (10m, stride=5m) → 4096 点随机采样 → 6 维特征 (xyz+RGB) → LFA×4 (k=16, MLP+Max) → 随机下采样 (×4) → 1×1 Conv 解码 + Skip Connection → 13 类 Softmax。核心贡献:LFA 中相对坐标编码 + Max 池化聚合代替密集 3D 卷积, 随机采样 O(N) 支撑百万级点云。建议训练用 Area_1~5 训 Area_6 测;

2026-04-26 14:52:44 23

原创 轻量 Transformer 时间序列预测:稀疏注意力 + 多步预报

轻量 Transformer 时间序列预测链路: 温度模拟数据 (seq=24, pred=12) → LightweightTransformer (d_model=16, heads=2, layers=2, window=5) → 80 epoch 达 MAPE=2.84%, 参数量仅 105K。稀疏注意力 (窗口 5) 将标准 Transformer O(L²) 降至 O(5L), 推理延迟 6ms。建议先用简单正弦波验证模型正确,再换真实工业数据 (ETT/Exchange Rate)。

2026-04-26 14:51:07 24

原创 PlainUSR:轻量实时图像超分(RepMBCConv + LIA + PlainU-Net)

PlainUSR 超分链路:Bicubic 上采样 → RepMBCConv (训练多分支/推理单分支) + LIA (通道注意力) + PlainU-Net (down→up+skip) → Tanh 输出。参数量仅 1.5M (EDSR 的 3.5%), 480p 推理 1.8ms (RTX 3060), PSNR=31.42 (Set5, ×4)。推荐轻量场景 (移动端/实时视频) 使用,若需要最高 PSNR 建议换 HAT/SwinIR。训练 100 epoch 后调用融合重参数化分支再部署。

2026-04-26 14:50:04 163

原创 EfficientViT:多尺度线性注意力实现高效视觉 Transformer

"""深度可分离卷积""""""多尺度线性注意力块"""# QKV 投影# 多尺度卷积分支 (ReLU 线性注意力)N = H * W# 展平做 QKV# ReLU 线性注意力: Q' = ReLU(Q), K' = ReLU(K)# 全局注意力 (线性)# 局部注意力 (通过卷积增强)# 融合return outreturn xreturn x# Stemnn.GELU(),nn.GELU(),# Stages])# Feature Pyramid 融合])

2026-04-26 14:48:51 38

原创 双像素深度估计与去模糊:Dual Pixel 传感器 AI 实战

双像素传感器 AI 核心链路:左右子单元视差提取 → DPFeatureExtractor (Conv+Branch Split+fuse) → 任务头 (Depth/Deconv/Dehaze)。去模糊模型在合成数据上 PSNR=33.4, SSIM=0.92, 比传统盲去模糊高 5 dB。建议先用公开 DP 数据集 (?Google Dual Pixel Dataset) 预训练深度估计分支,再联合训练去模糊。双像素方案的优势在于单镜头即可实现视差,无需双目立体匹配。

2026-04-26 14:48:03 16

原创 图像配准:多分辨率 ORB + RANSAC 优化实战

图像配准链路:Reference + Target → 高斯金字塔 3 层 → 每层 ORB (nfeatures∝分辨率) + BF Hamming → RANSAC 单应性 → 级联变换。1920×1080 下 RMSE 从单层 7.8 px 降到多分辨率 2.8 px, 时间从 620 ms 降到 270 ms。核心贡献:粗层锁定大致变换 + 高层仅估计残差, 避免高分辨率下误匹配主导。建议先用单层 ORB 快速验证图像重叠 (<50%?换 SIFT), 多分辨率不超过 3 层;

2026-04-26 14:47:15 18

原创 注意力机制与经典 CV 网络:PyTorch 实现与实战

注意力机制(SE/空间/CBAM/Non-Local)通过权重重标定让模型聚焦关键特征,经典 CNN(ResNet/DenseNet/FPN)提供了深层网络、特征复用和多尺度融合的基础骨架。建议先在 ResNet 上插入 SE 模块(通道注意力)做基线实验,再根据任务类型引入空间注意力(分割任务)或非局部注意力(视频任务)。CIFAR-10 数据集适合快速验证注意力模块的有效性,迁移到更大数据集时保持相同的结构设计思路即可。

2026-04-26 14:46:29 18

原创 视频动静判断:背景减除 / 光流 / SSIM 三种算法对比

三种视频动静判断算法各有适用场景。背景减除 (MOG2) 最适合固定监控 (阈值 500px, FPS> 实时),光流 (LK) 适合小目标精细运动 (maxCorners=100, dist>3px),SSIM + Laplacian 适合镜头切换检测 (ssim_delta > 0.2)。实际项目中推荐多数表决融合 + 时序平滑 (alpha=0.3) 将误报率降低 60% 以上。

2026-04-26 14:45:47 23

原创 MobileNetV3 医学病理分类:卷积分类头 + 迁移学习

MobileNetV3 医学病理分类链路:冻结 features 层(3.9M → 0 梯度)→ 用 Conv2d 1×1 替换 Linear 分类头(参数从 1.28M 降到 3.8K)→ 仅训练 conv_head 30 epoch 即可收敛(Val Acc=94.8%)。小数据集(<1000 张/类)推荐冻结策略,参数量足够小且不易过拟合。Conv2d 1×1 替代全连接层的思路也适用于其他 CNN backbone 的迁移学习任务。

2026-04-26 14:44:54 19

原创 CondConv 动态卷积:多专家加权 + PyTorch 模块实现

CondConv 动态卷积链路:多专家核 (n=4, 8) + 路由网络 (GAP→FC→Softmax) → 动态加权融合 → 卷积。在 CIFAR-10 上 ResNet18 + n=4 提升 0.6% Top-1 准确率 (92.4%), 参数量仅增 0.1%, 推理速度降 < 1%。建议 n 从 4 开始调, 优先替换网络深层 (stage3/4) 的 3×3 conv, 浅层保持标准 conv 以利训练稳定性。路由网络很小 (参数量 ≈ 0.01× 总参数), 几乎无额外开销。

2026-04-26 14:43:45 17

原创 聚类算法:K-means / DBSCAN 原理 + 实战

tol=1e-4):# 1. 初始化: 随机选 k 个# 2. 分配: 最近质心axis=-1# 3. 更新: 簇均值])# 4. 检查收敛break# ── 测试 ──# 分配标签plt.show()聚类算法链路:无标签数据 → 选 K-means (球形簇, 需指定 k) 或 DBSCAN (任意形状, 自动噪声) → fit_predict → 评价 (Silhouette/ARI) → 调参。K-means 肘部法选 k, 复杂度 O(n·k·d·t) 适合大数据;

2026-04-26 14:42:39 15

原创 图像超分辨率:Sub-Pixel 卷积原理与 PyTorch 实现

"""Sub-Pixel 卷积超分网络,4 倍上采样"""# 输出通道数 = in_channels × scale²return x# 测试前向。

2026-04-26 14:23:40 17

原创 树莓派 5 + YOLO26 实时口罩识别系统

YOLO26n 在树莓派 5 上 320×320 输入可达 10 FPS,结合 GPIO 控制继电器就能实现口罩门禁。关键点是使用口罩专用数据集微调模型(COCO 预训练权重不包含口罩类),否则只能用 person 检测 + 推理区域裁剪的间接方案。建议先用 PC 微调好模型,再部署到树莓派,树莓派端只需运行推理和 GPIO 控制。

2026-04-25 10:21:10 22

原创 DeOldify 老照片上色:模型选择、参数调优与批量修复

DeOldify 上色的关键参数是artistic(模型选择)和(渲染倍数)。人像场景用稳定模型()加,风景/历史照片用艺术模型()加。批量处理时建议先单张测试确定最优参数,再对整个目录应用。遇到 OOM 优先降低 render_factor 而不是换 CPU——CPU 模式速度会降低 10 倍以上。

2026-04-25 10:20:30 20

原创 用 Ultralytics YOLO26 + PyQt5 打造工业缺陷检测 GUI 应用

训练阶段 部署阶段Ultralytics YOLO26 (PyTorch) PyQt5 GUI 桌面应用YOLO26.onnx ──────────────→ onnxruntime 加载├── 图片检测├── 摄像头实时检测└── 视频文件检测用 Ultralytics 训练 YOLO26 模型,导出 ONNX 格式,在 PyQt5 界面中通过 onnxruntime 加载并推理。用户不需要安装 PyTorch,也不需要写命令行,打开 GUI 选图/开摄像头即可看到检测结果。

2026-04-25 10:19:12 23

原创 目标检测实战:Ultralytics YOLO26 从训练到部署

Ultralytics YOLO26 的目标检测流程是:安装 → 准备 YOLO 格式数据 →yolo train→yolo val→→ ONNX 部署。建议先用 COCO 预训练权重跑通训练和推理链路,确认数据格式无误后,再用自定义数据 finetune。每次训练完用yolo val看 mAP 和混淆矩阵,迭代调整数据和参数。

2026-04-25 10:18:33 36

原创 Jetson Orin Nano + Ultralytics YOLO26:边缘 AI 目标检测实战

在 PC 上训练,导出 engine 后复制到 Jetson。# PC 端训练# 导出 TensorRT engine# 复制到 JetsonJetson Orin Nano + TensorRT 部署方案中,FP16 量化几乎不损失精度,YOLO26n 可达 80 FPS。部署流程是 PC 端→ scp 到 Jetson → C++/Python 调用 TensorRT API。建议先用trtexec验证 engine 文件的正确性和吞吐量,再编写推理程序。

2026-04-25 10:17:53 34

原创 RK3588 部署 YOLO26 目标检测:从环境搭建到 NPU 推理

采集图像(500+ 张,覆盖不同光照和角度)→ 筛选(删除模糊、无目标的图像)→ LabelImg 标注(选择 YOLO 格式)→ 划分 train:val:test = 7:2:1labelImg├── train/├── val/nc: 3类别顺序必须与 LabelImg 标注时一致。YOLO26 在 RK3588 上的部署流程是 PC 端训练 → ONNX 导出(opset=11)→ RKNN 转换(INT8 量化)→ 板端推理。

2026-04-25 10:17:10 215

原创 多模态大模型入门:从位置编码到图文融合

多模态大模型的核心是"视觉编码器 + 融合模块 + 语言模型"的三段式架构。位置编码方面,RoPE 是当前 LLM 的事实标准;融合方式上,中期融合(以 Q-Former / Perceiver Resampler 为桥梁)是主流方案。从 BLIP-2 或 Qwen-VL 入门,用 10 行代码就能跑通图文问答。先确认模型在你的场景中能做对基础任务(描述、问答),再考虑微调或换更复杂的架构。

2026-04-25 10:16:19 26

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除