- 博客(504)
- 收藏
- 关注
原创 GaussianBev + REVFormer:3D 高斯表示 + 可逆 Transformer BEV 分割
GaussianBev + REVFormer BEV 分割链路:多相机 RGB → CNN 特征 → 逐像素 3D 高斯生成 (M~10⁵) → 可微 Splat 到 BEV → 24 层可逆 Transformer (显存恒定 1.1 GB) → 语义分割头。nuScenes 上 mIoU=0.541 (比 BEVFormer 高 5.9 点), 显存降至 1/8, FPS=11。
2026-04-28 20:16:34
15
原创 3D 多类别 Tversky Loss:原理 + PyTorch 实现 + 超参数调优
Tversky Loss = TP / (TP + α·FP + β·FN),通过 α 和 β 独立控制误检和漏检的惩罚力度。PyTorch 实现只需要注意维度顺序:logits (N, C, D, H, W) → softmax → 去掉背景 (可选) → one-hot 标签 (N, C, D, H, W) → 在 D×H×W 上求和 TP/FP/FN。肿瘤分割等漏检严重的场景推荐 α=0.3, β=0.7, include_background=False;过分割场景推荐 α=0.7, β=0.3。
2026-04-28 20:15:10
122
原创 3D Faster R-CNN:肺部结节检测系统完整实现
3D Faster R-CNN 用 3D ResNet 提取体数据特征、3D RPN 生成锚点框(3D 卷积分类 + 回归)、Detection Head 做精细分类与定位。MONAI 负责 NIfTI 加载与标准化,关键超参数是锚点尺寸(覆盖 2-16 体素)和 RoI Align 的采样分辨率(7×7×7)。建议先用单例验证前向是否通,再用小数据集 (50 例) 调参数,确认 mAP 能收敛后再全量训练。
2026-04-28 20:12:49
14
原创 指纹细节点提取与修复:Matlab 实现
指纹细节点提取的核心是 Gabor 增强 + Crossing Number 检测。Gabor 参数中 lambda(脊线间距)设为 5-7 像素,sigma(高斯包络宽度)设为 4-6,大部分场景通用。修复小范围缺失可以用方向插值,大范围缺失需要深度学习模型。建议先用标准数据集(如 FVC 2002/2004)测试提取准确率,确保端点和分叉点的检测正确率在 85% 以上,再切换到目标场景的指纹。
2026-04-28 20:11:33
188
原创 移动端 AI 部署:ONNX Runtime + Android 从模型到 App
移动端 ONNX 部署的流程是 PC 端导出 ONNX → 放到 Android 项目 assets → ONNX Runtime AAR 加载推理。核心是OrtSession,预处理在 Java 层用 Bitmap 操作完成。建议先在 PC 上用 onnxruntime Python 验证模型正确,再集成到 Android 端,可以减少定位问题的时间。ONNX Runtime 自动调用 NNAPI,在主流芯片上不需要额外适配。
2026-04-28 20:10:35
14
原创 图像风格迁移原理与 PyTorch 实现
风格迁移的核心是内容损失(深层特征差)和风格损失(Gram 矩阵差)的联合优化。用 VGG19 提取特征,LBFGS 优化生成图,50 行代码就能跑通。关键参数是风格权重(1e5 ~ 1e7)和内容层选择(conv4_2)。建议先用 256×256 快速调参,确认风格和内容平衡后,再放大分辨率做精细优化。
2026-04-28 20:09:20
10
原创 用 Ultralytics YOLO26 + PyQt5 打造工业缺陷检测 GUI 应用
训练阶段 部署阶段Ultralytics YOLO26 (PyTorch) PyQt5 GUI 桌面应用YOLO26.onnx ──────────────→ onnxruntime 加载├── 图片检测├── 摄像头实时检测└── 视频文件检测用 Ultralytics 训练 YOLO26 模型,导出 ONNX 格式,在 PyQt5 界面中通过 onnxruntime 加载并推理。用户不需要安装 PyTorch,也不需要写命令行,打开 GUI 选图/开摄像头即可看到检测结果。
2026-04-28 20:08:05
13
原创 目标检测实战:Ultralytics YOLO26 从训练到部署
Ultralytics YOLO26 的目标检测流程是:安装 → 准备 YOLO 格式数据 →yolo train→yolo val→→ ONNX 部署。建议先用 COCO 预训练权重跑通训练和推理链路,确认数据格式无误后,再用自定义数据 finetune。每次训练完用yolo val看 mAP 和混淆矩阵,迭代调整数据和参数。
2026-04-28 20:07:08
18
原创 Jetson Nano + YOLO26 + TensorRT:边缘 AI 实时目标检测
Jetson 端直接用加载。Jetson Nano 上跑 YOLO26 需要 TensorRT 加速才能达到实时。推荐输入 320×320 + FP16 精度,延迟约 30ms,可覆盖大部分实时检测场景。部署流程是 PC 端训练 →→ scp 到 Jetson → TensorRT Python/C++ 推理。先在 PC 上用trtexec验证 engine 可正常推理后,再部署到 Nano,可以省去 Jetson 上编译 engine 的时间。
2026-04-28 20:05:38
17
原创 像素艺术创作指南:工具 + 配色 + 动画 Aseprite 实战
像素艺术链路:16×32 画布 (小起步) → 10 色以内调色盘 → 2468 法则画形状 → Aseprite 帧动画 (4 帧, 80ms) → GIF 导出。像素核心是"以简代繁", 每格都有信息量;配色从经典游戏 (马里奥红/绿, 塞尔达金/绿) 抄起, 再调饱和度出自己的风格。动画用洋葱皮工具逐帧对齐, 循环帧首尾相接。
2026-04-27 21:52:55
96
原创 OHEM 在线困难样本挖掘:语义分割精度提升实战
OHEM 语义分割链路:U-Net logits (19 类) → 逐像素 CE (B×H×W) → 过滤 ignore → Top-10% 最大 loss → mean + backward。Cityscapes 上 mIoU 从 0.714 提到 0.742 (+2.8%), 小目标提升 8%, 边缘提升 6%。核心贡献:仅用 10% 困难像素的梯度更新模型, 避免简单像素主导。建议 keep_ratio 从 0.1 开始调, 先验证 OHEM 能否提升 val mIoU (2-3% 正常);
2026-04-27 21:51:22
21
原创 多场景文本处理与 Lottie 动效集成:Python 完整实现
三模块串接流程:Trie 过滤敏感词(O(N)),langdetect 检测语种,SnowNLP 计算情感得分,Lottie JSON 渲染反馈动画。建议先用纯脚本验证各模块正确,再用 PyQt5 整合为 GUI。情感得分为 0-1,可映射到 5 档动画(非常负面 / 负面 / 中性 / 正面 / 非常正面)以获得更细腻的视觉反馈。
2026-04-27 21:50:04
16
原创 MambaMorph 脑 MR-CT 配准:Mamba 架构 + 多模态形变场
MambaMorph 用 Mamba 架构做多模态形变场预测:两个独立的 FeatureExtractor 分别提取 MR/CT 特征,拼接后通过 Mamba Block(depth=4)建模长程依赖,DeformHead 输出 3 通道形变场。损失组合为 NCC(配准相似度)+ Grad×0.01(形变平滑度),可选加 Dice(分割辅助)。建议先用 Resize 到 96³ 跑通验证集(单卡 8GB 显存),确认 NCC 和 Dice 趋势正确后再调大空间分辨率。
2026-04-27 21:48:06
15
原创 KPConv + Semantic3D:点云语义分割 (TF2)
输出示例:KPConv + Semantic3D 点云语义分割链路: TF2.0 + CUDA 10.2 → 编译自定义算子 (tf_custom_ops, cpp_wrappers) → GridSubsampling 下采样 (30k 点) → KPConv Encoder × 5 → KPConv Decoder × 5 → Softmax (8 类) → 提交公开榜。核心贡献: TF2 适配编译脚本解决兼容;cpp_wrapper 加速 grid sampling 10×。
2026-04-27 21:45:58
513
原创 PlainUSR:轻量实时图像超分(RepMBCConv + LIA + PlainU-Net)
PlainUSR 超分链路:Bicubic 上采样 → RepMBCConv (训练多分支/推理单分支) + LIA (通道注意力) + PlainU-Net (down→up+skip) → Tanh 输出。参数量仅 1.5M (EDSR 的 3.5%), 480p 推理 1.8ms (RTX 3060), PSNR=31.42 (Set5, ×4)。推荐轻量场景 (移动端/实时视频) 使用,若需要最高 PSNR 建议换 HAT/SwinIR。训练 100 epoch 后调用融合重参数化分支再部署。
2026-04-26 14:18:19
21
原创 双像素深度估计与去模糊:Dual Pixel 传感器 AI 实战
双像素传感器 AI 核心链路:左右子单元视差提取 → DPFeatureExtractor (Conv+Branch Split+fuse) → 任务头 (Depth/Deconv/Dehaze)。去模糊模型在合成数据上 PSNR=33.4, SSIM=0.92, 比传统盲去模糊高 5 dB。建议先用公开 DP 数据集 (?Google Dual Pixel Dataset) 预训练深度估计分支,再联合训练去模糊。双像素方案的优势在于单镜头即可实现视差,无需双目立体匹配。
2026-04-26 14:16:15
19
原创 图像配准:多分辨率 ORB + RANSAC 优化实战
图像配准链路:Reference + Target → 高斯金字塔 3 层 → 每层 ORB (nfeatures∝分辨率) + BF Hamming → RANSAC 单应性 → 级联变换。1920×1080 下 RMSE 从单层 7.8 px 降到多分辨率 2.8 px, 时间从 620 ms 降到 270 ms。核心贡献:粗层锁定大致变换 + 高层仅估计残差, 避免高分辨率下误匹配主导。建议先用单层 ORB 快速验证图像重叠 (<50%?换 SIFT), 多分辨率不超过 3 层;
2026-04-26 14:14:47
16
原创 LocoTrack:6 倍加速的局部 4D 相关性点追踪
LocoTrack 的局部 4D 相关性在目标帧的局部窗口 (半径 8) 内计算每个查询点的相关性图,消除 2D 匹配的模糊性;Transformer 做跨点全局聚合消除局部歧义。两阶段追踪(粗定位 → 精化)实现速度与精度的平衡。建议先用公开权重在 DAVIS 验证集跑通(7.2 px EPE, 72 FPS),确认正确后再集成到 SLAM 或自定义数据集。
2026-04-26 14:14:11
15
原创 I3D 行为识别:摔倒 / 打架 / 异常运动实时检测
I3D 行为识别链路:摄像头 → 5 帧缓冲区 (~167ms) → Inflated 3D ConvNet (33.2M, 3D ResNet → Conv3D×16) → 全连接 (512→2) → 摔倒/正常。自采数据集 Acc=94.2%, UCF101=95.8%。核心贡献:用 2D ResNet 预训练权重初始化 3D 时间核 (inflate), 从空间充足预训练迁移到时间-空间联合建模。
2026-04-26 14:12:49
17
原创 Win10 RandLA-Net 点云语义分割:C++ 模块编译与 Semantic3D 训练
Win10 下 RandLA-Net 训练的核心瓶颈是 C++ 模块编译。下采样模块通常一次过,最近邻搜索模块需将knn.cppkm.cpp中的long改为long long(Win long 为 4 字节,Linux 为 8 字节)。编译成功后,Semantic3D 跑 100 epoch 约 8h (RTX 3060),mIoU 约 65%。建议先用验证编译正确性,确认 loss 下降后再调到完整配置。
2026-04-26 14:10:45
15
原创 SCTransNet:空-通道交叉注意力红外小目标检测
SCTransNet 红外小目标检测链路:IR 灰度 (256²) → Conv Backbone (32→64→128ch) + 空洞多尺度 (d=1/2/4/8) → Spatial-Channel Cross Transformer (4 heads) → 解码恢复分辨率 → Sigmoid 概率图。IRSTD-1k 上 F1=0.857, IoU=0.749, 参数量 4.2M。核心贡献:空间→通道双向交叉注意力, 空间定位 (分布) 与通道筛选 (噪声抑制) 互相增强。
2026-04-26 14:08:19
16
原创 多场景文本处理与 Lottie 动效集成:Python 完整实现
三模块串接流程:Trie 过滤敏感词(O(N)),langdetect 检测语种,SnowNLP 计算情感得分,Lottie JSON 渲染反馈动画。建议先用纯脚本验证各模块正确,再用 PyQt5 整合为 GUI。情感得分为 0-1,可映射到 5 档动画(非常负面 / 负面 / 中性 / 正面 / 非常正面)以获得更细腻的视觉反馈。
2026-04-26 14:07:07
10
原创 MambaMorph 脑 MR-CT 配准:Mamba 架构 + 多模态形变场
MambaMorph 用 Mamba 架构做多模态形变场预测:两个独立的 FeatureExtractor 分别提取 MR/CT 特征,拼接后通过 Mamba Block(depth=4)建模长程依赖,DeformHead 输出 3 通道形变场。损失组合为 NCC(配准相似度)+ Grad×0.01(形变平滑度),可选加 Dice(分割辅助)。建议先用 Resize 到 96³ 跑通验证集(单卡 8GB 显存),确认 NCC 和 Dice 趋势正确后再调大空间分辨率。
2026-04-26 14:05:22
9
原创 KPConv + Semantic3D:点云语义分割 (TF2)
输出示例:KPConv + Semantic3D 点云语义分割链路: TF2.0 + CUDA 10.2 → 编译自定义算子 (tf_custom_ops, cpp_wrappers) → GridSubsampling 下采样 (30k 点) → KPConv Encoder × 5 → KPConv Decoder × 5 → Softmax (8 类) → 提交公开榜。核心贡献: TF2 适配编译脚本解决兼容;cpp_wrapper 加速 grid sampling 10×。
2026-04-26 14:03:21
9
原创 FedU-Net:联邦学习 + BraTS 多模态脑肿瘤分割
FedU-Net 联邦脑肿瘤分割链路:BraTS 2021 (4 模态, 4 类) → U-Net (5.1M) + CE+Dice 损失 → Flower 5 客户端模拟, 20 轮 FedAvg 达全局 DSC=0.828 (比单机高 7.8 个百分点)。非 IID 场景下建议增大每客户端本地 epoch 到 10 或换 FedProx 聚合器。Opacus 差隐私噪声 σ=0.01 对 DSC 影响 < 0.5%, 适合医疗合规场景。
2026-04-26 14:01:44
9
原创 3D Faster R-CNN:肺部结节检测系统完整实现
3D Faster R-CNN 用 3D ResNet 提取体数据特征、3D RPN 生成锚点框(3D 卷积分类 + 回归)、Detection Head 做精细分类与定位。MONAI 负责 NIfTI 加载与标准化,关键超参数是锚点尺寸(覆盖 2-16 体素)和 RoI Align 的采样分辨率(7×7×7)。建议先用单例验证前向是否通,再用小数据集 (50 例) 调参数,确认 mAP 能收敛后再全量训练。
2026-04-26 14:00:25
8
原创 SRGAN → Real-ESRGAN:GAN 图像超分辨率原理与实战
GAN 的对抗损失让超分输出在感知质量上远优于 MSE 优化的传统方法。SRGAN 开创性地用感知损失 + GAN 损失替代像素级损失,Real-ESRGAN 在此基础上用复杂退化模拟(多阶段随机退化组合)和 RRDB 生成器(残差缩放 + 无 BN)解决了真实场景退化的问题。建议先用 Real-ESRGAN 的预训练模型处理一张测试图,评估结果后再决定是否需要微调或者在视频上逐帧应用。
2026-04-26 13:58:46
17
原创 移动端 AI 部署:ONNX Runtime + Android 从模型到 App
移动端 ONNX 部署的流程是 PC 端导出 ONNX → 放到 Android 项目 assets → ONNX Runtime AAR 加载推理。核心是OrtSession,预处理在 Java 层用 Bitmap 操作完成。建议先在 PC 上用 onnxruntime Python 验证模型正确,再集成到 Android 端,可以减少定位问题的时间。ONNX Runtime 自动调用 NNAPI,在主流芯片上不需要额外适配。
2026-04-26 13:57:13
16
原创 风格迁移与 GAN:原理与 PyTorch 实现
风格迁移的核心是分离图像的内容和风格(用 VGG 深层做内容、Gram 矩阵做风格),通过联合优化两个损失来融合。GAN 的核心是生成器与判别器的对抗博弈,让生成器学会从噪声映射到真实数据分布。建议先跑风格迁移的单图优化(理解损失函数),再跑 GAN 的 MNIST 生成(理解对抗训练),最后组合两者探索 CycleGAN 或 AnimeGAN 的高级应用。
2026-04-26 13:55:42
10
原创 GAN 应用实战:风格迁移、动漫化与超分辨率
GAN 在图像生成领域的三个主流应用是超分辨率(Real-ESRGAN)、风格迁移(AdaIN/CycleGAN)和动漫化(AnimeGAN)。Real-ESRGAN 通过 RRDB 主干 + U-Net 判别器在 4 倍超分上效果最佳;AdaIN 用通道统计量匹配实现实时风格迁移;AnimeGAN 在五大动画风格上做了预训练模型。建议先从预训练模型上手,确认效果后再考虑在特定数据集上微调。
2026-04-26 13:54:25
12
原创 目标检测实战:Ultralytics YOLO26 从训练到部署
Ultralytics YOLO26 的目标检测流程是:安装 → 准备 YOLO 格式数据 →yolo train→yolo val→→ ONNX 部署。建议先用 COCO 预训练权重跑通训练和推理链路,确认数据格式无误后,再用自定义数据 finetune。每次训练完用yolo val看 mAP 和混淆矩阵,迭代调整数据和参数。
2026-04-26 13:49:31
11
原创 Jetson Orin Nano + Ultralytics YOLO26:边缘 AI 目标检测实战
在 PC 上训练,导出 engine 后复制到 Jetson。# PC 端训练# 导出 TensorRT engine# 复制到 JetsonJetson Orin Nano + TensorRT 部署方案中,FP16 量化几乎不损失精度,YOLO26n 可达 80 FPS。部署流程是 PC 端→ scp 到 Jetson → C++/Python 调用 TensorRT API。建议先用trtexec验证 engine 文件的正确性和吞吐量,再编写推理程序。
2026-04-26 13:48:02
14
原创 YOLOv8特征下采样革命:ADown技术实现多尺度特征精准传递实战指南
ADown 以“可编程梯度信息+多分支特征融合”打破了传统下采样的性能壁垒,为 YOLOv8 带来了多尺度特征的精准传递能力。从原理到代码集成,本教程已为你铺就了一条“小目标检测精度跃升”的实战路径。现在就动手尝试吧——当你看到模型对极小目标也能精准识别,且特征图细节完整时,你会明白这份技术探索的价值。我很乐意在你实践过程中帮你解决任何问题,让我们一起推动目标检测在下采样领域的边界。
2026-04-26 13:46:13
9
原创 3D 多类别 Tversky Loss:原理 + PyTorch 实现 + 超参数调优
Tversky Loss = TP / (TP + α·FP + β·FN),通过 α 和 β 独立控制误检和漏检的惩罚力度。PyTorch 实现只需要注意维度顺序:logits (N, C, D, H, W) → softmax → 去掉背景 (可选) → one-hot 标签 (N, C, D, H, W) → 在 D×H×W 上求和 TP/FP/FN。肿瘤分割等漏检严重的场景推荐 α=0.3, β=0.7, include_background=False;过分割场景推荐 α=0.7, β=0.3。
2026-04-25 10:24:09
16
原创 3D Faster R-CNN:肺部结节检测系统完整实现
3D Faster R-CNN 用 3D ResNet 提取体数据特征、3D RPN 生成锚点框(3D 卷积分类 + 回归)、Detection Head 做精细分类与定位。MONAI 负责 NIfTI 加载与标准化,关键超参数是锚点尺寸(覆盖 2-16 体素)和 RoI Align 的采样分辨率(7×7×7)。建议先用单例验证前向是否通,再用小数据集 (50 例) 调参数,确认 mAP 能收敛后再全量训练。
2026-04-25 10:23:36
13
原创 指纹细节点提取与修复:Matlab 实现
指纹细节点提取的核心是 Gabor 增强 + Crossing Number 检测。Gabor 参数中 lambda(脊线间距)设为 5-7 像素,sigma(高斯包络宽度)设为 4-6,大部分场景通用。修复小范围缺失可以用方向插值,大范围缺失需要深度学习模型。建议先用标准数据集(如 FVC 2002/2004)测试提取准确率,确保端点和分叉点的检测正确率在 85% 以上,再切换到目标场景的指纹。
2026-04-25 10:22:58
12
原创 SRGAN → Real-ESRGAN:GAN 图像超分辨率原理与实战
GAN 的对抗损失让超分输出在感知质量上远优于 MSE 优化的传统方法。SRGAN 开创性地用感知损失 + GAN 损失替代像素级损失,Real-ESRGAN 在此基础上用复杂退化模拟(多阶段随机退化组合)和 RRDB 生成器(残差缩放 + 无 BN)解决了真实场景退化的问题。建议先用 Real-ESRGAN 的预训练模型处理一张测试图,评估结果后再决定是否需要微调或者在视频上逐帧应用。
2026-04-25 10:22:16
22
原创 移动端 AI 部署:ONNX Runtime + Android 从模型到 App
移动端 ONNX 部署的流程是 PC 端导出 ONNX → 放到 Android 项目 assets → ONNX Runtime AAR 加载推理。核心是OrtSession,预处理在 Java 层用 Bitmap 操作完成。建议先在 PC 上用 onnxruntime Python 验证模型正确,再集成到 Android 端,可以减少定位问题的时间。ONNX Runtime 自动调用 NNAPI,在主流芯片上不需要额外适配。
2026-04-25 10:21:29
13
原创 风格迁移与 GAN:原理与 PyTorch 实现
风格迁移的核心是分离图像的内容和风格(用 VGG 深层做内容、Gram 矩阵做风格),通过联合优化两个损失来融合。GAN 的核心是生成器与判别器的对抗博弈,让生成器学会从噪声映射到真实数据分布。建议先跑风格迁移的单图优化(理解损失函数),再跑 GAN 的 MNIST 生成(理解对抗训练),最后组合两者探索 CycleGAN 或 AnimeGAN 的高级应用。
2026-04-25 10:20:53
8
原创 图像风格迁移原理与 PyTorch 实现
风格迁移的核心是内容损失(深层特征差)和风格损失(Gram 矩阵差)的联合优化。用 VGG19 提取特征,LBFGS 优化生成图,50 行代码就能跑通。关键参数是风格权重(1e5 ~ 1e7)和内容层选择(conv4_2)。建议先用 256×256 快速调参,确认风格和内容平衡后,再放大分辨率做精细优化。
2026-04-25 10:20:11
9
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅