爱学习的桃子-CSDN博客

原创 Dual Pixel 传感器：深度估计 + 去模糊实战

Dual Pixel 去模糊链路：运动/高斯模糊 → DualPixelBlock (双分支视差模拟 + concat 融合) ×4 → 全局残差 → Tanh。核心贡献：双分支结构模拟双像素两个子单元的空间偏移, 残差连接保留低频信息避免颜色偏移。建议先用 L1 loss 训 50 epoch, 再用 L2 finetune 10 epoch 提边缘锐度;合成模糊用多种 kernel (运动+高斯+散焦混合) 防过拟合单一退化类型。

2026-04-28 21:41:18 27

原创 ViT 实战：Patch Embedding + Transformer + CIFAR-10 分类

ViT 的核心是 PatchEmbedding（Conv2d kernel=16, stride=16 将 224² 图切成 14×14=196 个 patch，映射到 192/768 维）+ [CLS] Token（用于分类）+ 位置编码（可学习）+ Transformer Encoder（MultiheadAttention + MLP）。小数据集（如 CIFAR-10）从头训练 ViT-Tiny 仅约 72% 准确率，远不如 ResNet18（~95%）。

2026-04-28 21:39:40 21

原创 MobileNetV3 医学病理分类：卷积分类头 + 迁移学习

MobileNetV3 医学病理分类链路：冻结 features 层（3.9M → 0 梯度）→ 用 Conv2d 1×1 替换 Linear 分类头（参数从 1.28M 降到 3.8K）→ 仅训练 conv_head 30 epoch 即可收敛（Val Acc=94.8%）。小数据集（<1000 张/类）推荐冻结策略，参数量足够小且不易过拟合。Conv2d 1×1 替代全连接层的思路也适用于其他 CNN backbone 的迁移学习任务。

2026-04-28 21:38:54 136

原创聚类算法：K-means / DBSCAN 原理 + 实战

tol=1e-4):# 1. 初始化: 随机选 k 个# 2. 分配: 最近质心axis=-1# 3. 更新: 簇均值])# 4. 检查收敛break# ── 测试 ──# 分配标签plt.show()聚类算法链路：无标签数据 → 选 K-means (球形簇, 需指定 k) 或 DBSCAN (任意形状, 自动噪声) → fit_predict → 评价 (Silhouette/ARI) → 调参。K-means 肘部法选 k, 复杂度 O(n·k·d·t) 适合大数据;

2026-04-28 21:38:08 132

原创 FedU-Net：联邦学习 + BraTS 多模态脑肿瘤分割

FedU-Net 联邦脑肿瘤分割链路：BraTS 2021 (4 模态, 4 类) → U-Net (5.1M) + CE+Dice 损失 → Flower 5 客户端模拟, 20 轮 FedAvg 达全局 DSC=0.828 (比单机高 7.8 个百分点)。非 IID 场景下建议增大每客户端本地 epoch 到 10 或换 FedProx 聚合器。Opacus 差隐私噪声 σ=0.01 对 DSC 影响 < 0.5%, 适合医疗合规场景。

2026-04-28 20:15:53 24

原创图像超分辨率：Sub-Pixel 卷积原理与 PyTorch 实现

"""Sub-Pixel 卷积超分网络，4 倍上采样"""# 输出通道数 = in_channels × scale²return x# 测试前向。

2026-04-28 20:10:59 21

原创树莓派 5 + YOLO26 实时口罩识别系统

YOLO26n 在树莓派 5 上 320×320 输入可达 10 FPS，结合 GPIO 控制继电器就能实现口罩门禁。关键点是使用口罩专用数据集微调模型（COCO 预训练权重不包含口罩类），否则只能用 person 检测 + 推理区域裁剪的间接方案。建议先用 PC 微调好模型，再部署到树莓派，树莓派端只需运行推理和 GPIO 控制。

2026-04-28 20:09:58 20

原创 GAN 应用实战：风格迁移、动漫化与超分辨率

GAN 在图像生成领域的三个主流应用是超分辨率（Real-ESRGAN）、风格迁移（AdaIN/CycleGAN）和动漫化（AnimeGAN）。Real-ESRGAN 通过 RRDB 主干 + U-Net 判别器在 4 倍超分上效果最佳；AdaIN 用通道统计量匹配实现实时风格迁移；AnimeGAN 在五大动画风格上做了预训练模型。建议先从预训练模型上手，确认效果后再考虑在特定数据集上微调。

2026-04-28 20:08:43 17

原创 GAN 图像上色 + 动作迁移：从黑白照片到动态视频

DeOldify 上色 + FOMM 动作迁移的组合可以让一张黑白老照片变成彩色动态短视频。DeOldify 的关键参数是 render_factor（30 左右），FOMM 的关键是驱动视频的动作幅度不宜过大。串联时先用 DeOldify 上色并保存，再以彩色图为 source 输入 FOMM。建议先用一张高质量正面照测试整个 pipeline 跑通，再批量处理更多老照片。

2026-04-28 20:07:39 17

原创老照片上色 + 人物动态化：GAN 与动作迁移实战

DeOldify 上色 + FOMM 动作迁移的组合，可以让一张黑白老照片变成彩色动态视频。单张上色的关键参数是 render_factor（30 左右），动态化的关键是驱动视频的动作幅度不宜过大。先用上色结果替换 FOMM 的 source 输入即可串联两个模型。建议在制作演示视频时输出纯脚本文本版本，再通过剪辑加入转场和背景音乐来提升展示效果。

2026-04-28 20:06:27 21

原创聚类算法实战：K-means + DBSCAN + 层次聚类对比

对比项K-meansDBSCAN层次聚类簇形状球形任意任意需指定 k是否可后剪枝噪声处理无法识别自动标记无法识别参数n_clusters计算复杂度O(n·k·t)O(n²)O(n³)大规模数据 (n > 10K)可慢不可高维数据 (d > 50)可 (需归一化)差 (密度失效)差K-means (球形簇, 需肘部法选 k, 轮廓系数 0.55) 适合客户分群/图像分割；

2026-04-27 21:52:16 28

原创知识蒸馏温度系数 T 深度解析：公式推导 + PyTorch 自适应策略

温度系数 T 的数学本质是缩放 logits 再 Softmax：T 越大分布越平缓 (KL 散度越大但梯度越小)。经典 T=4 在 CIFAR-100 上比无蒸馏高 4.5 个百分点。建议先用线性衰减策略 (T=8→1, α=0.7) 作为 Baseline，再根据教师-学生容量差距微调：容量差距大用 T=8 以上，容量接近用 T=2-4。多教师多温度蒸馏可再提 1-2 个百分点但训练成本增 30%。

2026-04-27 21:50:41 22

原创 OpenSlide 病理 SVS 切片处理：多层读取 + 批量裁剪全流程

OpenSlide 处理 SVS 流程:→查看层级 →获取 patch → 批量滑窗裁剪或直接 AI 模型输入。坐标始终基于 level 0 坐标系, 低层级使用换算。建议先用 ImageScope 打开切片定位 ROI, 再通过 OpenSlide 批量裁剪高倍 patch 喂给 YOLO26/UNet 等模型。

2026-04-27 21:49:15 21

原创 Lung-DETR：变形注意力 + 肺先验的稀疏肺结节检测

Lung-DETR 链路：LUNA16 CT 预处理（HU 窗位 -1000~400 + 肺分割阈值 0.25）→ ResNet50 backbone 提取 2D 切片特征 → DeformableAttention (num_points=9) 学习采样偏移捕捉不规则结节 → 100 queries + Hungarian 匹配 → mAP@0.5=0.92。

2026-04-27 21:47:09 17

原创 GaussianBev + REVFormer：3D 高斯表示 + 可逆 Transformer BEV 分割

GaussianBev + REVFormer BEV 分割链路：多相机 RGB → CNN 特征 → 逐像素 3D 高斯生成 (M~10⁵) → 可微 Splat 到 BEV → 24 层可逆 Transformer (显存恒定 1.1 GB) → 语义分割头。nuScenes 上 mIoU=0.541 (比 BEVFormer 高 5.9 点), 显存降至 1/8, FPS=11。

2026-04-27 21:40:27 21

原创 3D 多类别 Tversky Loss：原理 + PyTorch 实现 + 超参数调优

Tversky Loss = TP / (TP + α·FP + β·FN)，通过 α 和 β 独立控制误检和漏检的惩罚力度。PyTorch 实现只需要注意维度顺序：logits (N, C, D, H, W) → softmax → 去掉背景 (可选) → one-hot 标签 (N, C, D, H, W) → 在 D×H×W 上求和 TP/FP/FN。肿瘤分割等漏检严重的场景推荐 α=0.3, β=0.7, include_background=False；过分割场景推荐 α=0.7, β=0.3。

2026-04-27 21:38:58 370

原创点云离群点去除：统计滤波 / 半径滤波 (Open3D)

离群点去除链路：原始点云 → 统计滤波 (k=20, n=2.0, 基于邻域平均距离全局分布) 或半径滤波 (r=0.1, min_pts=16, 基于局部密度) → 可选组合 (先统计后半径) → 干净点云。室内场景保留 95~97%。核心贡献：组合滤波比单一方法多移除 1.5~2% 边缘噪声, 且不误删主体。建议密度均匀场景用统计滤波一步到位;密度有变化 (如森林/空旷) 用半径滤波;精度要求高时组合使用。下采样后再滤波, 速度提升 10×。

2026-04-27 21:37:21 27

原创 Open3D 多窗口联动：点云目标检测结果对比可视化

Open3D 多窗口联动的核心是获取视角 →设置视角。主循环中两个窗口都要才能保持响应。检测框用添加，写入文字。建议先单窗口调通视角控制和几何体更新，确认循环正常后再加第二个窗口。

2026-04-27 21:36:02 18

原创 YOLO26 智能农业病害诊断系统：从训练到部署

YOLO26s 病害诊断链路：自采/公开数据 2300 张 (3 类) → 标注 → 增强 (hsv+blur+mosaic) → 训练 200 epoch → mAP@0.5=0.86 → ONNX/TensorRT 部署 → Flask 接口单张 < 50ms。核心贡献：YOLO26s 11.2M 参数在农业病害上 FPS=85 (GPU), 3 类病害区分 mAP 均 > 0.82。建议先用 labelimg 标至少 100 张自采叶, 和公开数据混训提升泛化;

2026-04-27 21:34:19 23

原创 YOLO26 校园检测：人 / 书包 / 无人机 + Streamlit Web

YOLO26n 校园安防检测链路：1000 张校园场景图 (person/backpack/drone) → 增强 (blur+erasing+mixup) → 100 epoch → mAP@0.5=0.91 (nano) → ONNX/TFLite 导出 → Streamlit Web Demo。核心贡献：drone 远距离 (50px 以上) recall=0.76, 校园低光照场景仍保持 0.85+;ONNX 导出后 110 FPS。

2026-04-27 21:31:49 18

原创 YOLO26 医疗影像异常检测：毕设全流程实践

YOLO26m 医疗异常检测链路：3 类 (normal/tumor/fracture) 200 epoch 训练 (mAP50=0.87, tumor=0.85, fracture=0.80) → ONNX/TensorRT 导出 → Flask Web 诊断台。建议 fracture 类单独增加 50% 样本权重，肿瘤检测阈值设为 0.8 以上再告警，避免过度诊断。Web 端上传 X 光秒出结果，答辩时可以现场展示。

2026-04-27 21:30:02 146

原创 YOLO26 安防监控：异常行为检测 + 部署

YOLO26n 安防检测链路：2000 张监控图 (person/anomaly) → 增强 (blur+erasing+mosaic) → 80 epoch → mAP@0.5=0.90 (nano) / 0.92 (s) / 0.94 (m) → ONNX + TensorRT (FP16) 部署 → Flask Web 演示。核心贡献：anomaly 面积分级预警 (low/medium/high), 异常场景 mAP=0.86;TRT FP16 加速后 nano 达 185 FPS。

2026-04-27 21:28:55 33

原创 YOLO26 电子产品零部件质检：缺陷检测 + Streamlit

YOLO26s 电子质检链路：1100 张工业零部件图 (4 类缺陷) → 增强 (blur+shear+低光照) → 150 epoch → mAP@0.5=0.91 → Streamlit 质检界面 (上传/摄像头双模式) → 缺陷严重度分级 (pass/minor/major/critical)。核心贡献：blur+shear 模拟产线振动和视角偏移, 使模糊场景 recall 从 72% 提升至 78%;Streamlit 一键部署, 无需前端经验。建议先收集 200 张纯正常件做负样本防过检;

2026-04-27 21:27:29 328

原创 YOLO26 监控未授权人员识别：Streamlit 预警 + 多场景适配

YOLO26s 安防未授权人员识别链路：标注 2 类 (authorized/unauthorized) → 100 epoch 训练 (mAP50=0.85, 综合) → Streamlit 预警界面 (图片/摄像头/实时预警)。hsv_v=0.6大幅亮度抖动覆盖白天→黑夜过渡，mixup=0.2处理遮挡场景。夜间场景 mAP50=0.76 偏低，需单独收集红外补光样本微调。建议摄像头模式输入降采样到 640×480 保持 20 FPS 流畅度。

2026-04-27 21:26:21 22

原创 YOLO26 交通信号灯检测：多模型对比 + Streamlit 管控系统

场景挑战表现晴天基本无干扰高精度夜间光晕/反光/亮度低容易漏检雨天积水反光虚警增加雾天对比度低小灯湮没密集路口多灯重叠漏检严重摄像头/图片↓YOLO26 推理 (conf≥0.5)↓后处理 (颜色验证 + 形状约束)↓信号灯状态 (红/黄/绿)↓Streamlit 管控面板├── 实时检测画面├── 灯态统计 (N 红 N 黄 N 绿)├── 黄灯预警└── 配时建议。

2026-04-27 21:23:03 20

原创 YOLO26 球场设备检测：从训练到 PyQt5 实时界面

场景挑战表现晴天基本无干扰高精度夜间灯光不均匀漏检增加近距离设备占据大比例画面正常远距离设备 < 20px易漏检遮挡球员/设备互相遮挡召回下降摄像头/图片↓YOLO26 推理 (conf≥0.4)↓后处理 (设备状态判断 + 完好率统计)↓PyQt5 界面├── 实时检测画面├── 设备统计面板├── 完好率排行榜└── 巡检报告导出。

2026-04-27 21:09:41 136

原创 YOLO26 智慧农场检测：作物识别 + 病虫害诊断 + Streamlit 监测

场景挑战表现晴天基本无干扰高精度逆光亮度不均漏检增加杂草遮挡目标被遮盖召回下降多作物混种形态相似误检提升微小害虫目标 < 10px极易漏检田间摄像头/无人机↓YOLO26 推理 (conf≥0.5)↓后处理 (作物计数 + 病虫害定位)↓Streamlit 监测面板├── 实时检测画面├── 作物产量统计├── 病虫害预警└── 防治建议。

2026-04-27 21:08:15 124

原创 Learning to AutoFocus：深度学习驱动的自动对焦实战

Learning to AutoFocus 用 ResNet 提取图像特征、回归对焦位置和清晰度，替代传统 CDAF 的扫描寻优。训练数据用拉普拉斯方差自动标注清晰度，不需要人工标注。建议先收集 500-1000 帧的多对焦位置图像，用 ResNet-18 在 PC 上验证可行性，再通过量化+轻量网络部署到目标设备。关键参数是输入 ROI 大小（64×64 到 224×224 之间）和推理频率（单帧一次 vs 连续预测平滑）。

2026-04-26 15:05:10 34

原创 BAAF-Net + Semantic3D：双向聚合注意力点云语义分割

BAAF-Net + Semantic3D 链路：大场景 .ply 滑窗切 patch (512m, overlap=0.3) → 3 级 BA (local_maxpool + global_mean, 32→64→128→256ch) → 3 级 AF (Attention+残差, 256→128→64→32ch) → 8 类 softmax。训练 80 epoch 达 mIoU=60.2，buildings 类 IoU=88.1 最优。

2026-04-26 14:53:24 23

原创 3D 点云变换：平移 / 旋转 / 缩放 (Open3D)

点云变换链路: 原始点云 N×3 → 选择变换类型 (T/R/S/组合) → 构造 3×3 (旋转) 或 4×4 齐次矩阵 (组合) → Open3D API (translaterotatescale) 或 numpy 批量操作 → 验证可视化。非等比例缩放需手动pts * s, 组合变换用 4×4 齐次矩阵相乘 (M = T · R · S)。1M 点 numpy 组合变换 8 ms, PyTorch GPU 0.3 ms。

2026-04-26 14:52:03 27

原创可信多视图分类 (TMC)：基因致病诊断

TMC 基因致病诊断链路：基因特征 (100 维) → 均分两视图 (碱基序列 / 表达量) → SingleViewClassifier (FC128 → FC2 + Sigmoid 可信度) → Dempster 加权融合 → 致病/不致病 + 整体可信度。80 epoch, Test Acc=0.92, 比单视图高 9~11%。核心贡献：可信度加权融合使噪声视图贡献自动压低, 高可信 (c>0.8) 样本准确率 0.97;对齐损失使两视图可信度差异保留在合理范围。

2026-04-26 14:50:41 18

原创 LoRA 微调实战：低秩适配大模型，PEFT 全流程

→ 基础模型仅 1.5% 参数可训练 → 10 epoch 收敛 (loss=0.52)。生成的文本风格与训练数据一致，LoRA 权重仅 ~4 MB，支持同基础模型多任务切换。建议先设 r=8, alpha=32 跑 5 epoch 验证风格迁移效果，再根据生成质量调整 r (r=4 风格弱但快, r=16 风格强但略慢)。合并权重后推理速度提升约 15%。

2026-04-26 14:49:16 28

原创 Mamba SSM 实战：IMDb 文本分类 + Mamba-ssm 全流程

Mamba SSM 文本分类链路：IMDb 二分类 → MambaLMHeadModel (d_model=256, n_layer=8, d_state=16, exp2=2) → 末 token 分类头。5 epoch 达 89.2% 准确率 (与 BERT-base 持平), 但显存降低 44% (3.5GB vs 6.2GB)。建议序列长度 ≥ 1024 再选 Mamba, 短序列 (< 512) 用 BERT 更高效。扩展时注意d_state。

2026-04-26 14:48:29 21

原创 V-Mamba：2D 选择性扫描状态空间模型图像分类

V-Mamba CIFAR-10 分类链路：32² RGB → Stem Conv (3→64ch, stride2→16²) → VMambaBlock ×4 (SS2D 四方向 → Mamba S6 扫描 → MLP) → GAP → Linear → 10 类。核心贡献：SS2D 四方向扫描将 2D 空间建模转为 4 个 1D 序列, 计算复杂度从 O(N²) 降至 O(N)。建议先从 CIFAR-10 dim=64 depth=4 验证 SSM 收敛性;

2026-04-26 14:47:34 22

原创 GaussianBev + REVFormer：3D 高斯点云 + 可逆 Transformer 自动驾驶感知

GaussianBev + REVFormer 自动驾驶感知链路：多相机 RGB → 3D 高斯点云表示 (每像素) → 体素化 BEV 特征 → 24 层可逆 Transformer Encoder (显存恒定 2.1GB) → 检测/跟踪/地图头。nuScenes 上 NDS=0.591 (比 BEVFormer 高 7.4 个点), 显存降至 1/15。核心贡献：GaussianBev 用各向异性高斯隐式建模远距不确定 + REVFormer 以可逆计算消除显存深度瓶颈。

2026-04-26 14:46:52 23

原创 I3D 行为识别：摔倒 / 打架 / 异常运动实时检测

I3D 行为识别链路：摄像头 → 5 帧缓冲区 (~167ms) → Inflated 3D ConvNet (33.2M, 3D ResNet → Conv3D×16) → 全连接 (512→2) → 摔倒/正常。自采数据集 Acc=94.2%, UCF101=95.8%。核心贡献：用 2D ResNet 预训练权重初始化 3D 时间核 (inflate), 从空间充足预训练迁移到时间-空间联合建模。

2026-04-26 14:46:07 17

原创图像配准：多分辨率 ORB + RANSAC 优化

图像配准链路：输入两帧 → 高斯金字塔 (3 level) → 每层 ORB (nfeatures∝分辨率) + BF Hamming → RANSAC 单应性 → 级联变换。1920×1080 图 RMSE 从单层 7.8 px 降到多分辨率 2.8 px, 时间从 620 ms 降到 270 ms。核心贡献：粗层先算大致变换 + 高层仅估计残差, 避免高分辨率下误匹配多的问题。建议先用单层 ORB 快速验证图像间是否有足够重叠 (<50%?

2026-04-26 14:45:22 23

原创 Instruct-IPT：多任务图像恢复（去雨/去雾/去模糊）

Instruct-IPT 链路：退化图像 (雨/雾/模糊/噪) → Swin-B Patch Embed → CLIP 文本编码 → 跨模态 Cross-Attention → IPT Backbone ×12 (W₀ + ΔW, ΔW=AB, r=16) → PixelShuffle 解码 → 恢复图像。4 任务 unified PSNR=35.1, 参数量 96M (对比 4 个单任务 256M 省 62%)。核心贡献：(1) 低秩权重调制解耦共享与任务特定参数;

2026-04-26 14:44:14 19

原创 GPT-2 文本生成：从加载到微调，完整代码实现

GPT-2 文本生成的核心 pipeline：Tokenizer 将文本编码为 token IDs → GPT-2 逐 token 预测下一个词 → 采样策略（temperature=0.7, top_k=50, top_p=0.95）控制随机性和连贯性。微调用自己领域的数据（每行一段文本）跑 3 epoch，loss 降至 2.0 以下即可。

2026-04-26 14:42:59 21

原创《从AudioX到Cosh-DiT：多模态生成与动作同步的AIGC实战教程》—— 助你掌握跨模态内容创作核心技术

让我们一起，在AIGC的多感世界里持续探索，把“单一创作”升级为“多感联动的沉浸体验”。在多任务测试中，AudioX在文本到音频（T2A）、图像到音频（V2A）等任务上全面超越现有方法，甚至能生成“带有情感变化的语音”“契合场景的背景音乐”，让音频创作从“单调音效”跃升至“叙事化声学表达”。在测试中，Cosh-DiT生成的“演讲视频”中，手势的“挥、指、握”与语音的“起、承、转、合”完全同步，甚至能体现“兴奋时的手势幅度大、沉思时的手势缓慢”这类情感化细节，让虚拟人的“表达”更具感染力。

2026-04-26 14:41:21 26

空空如也

空空如也