pytorch
文章平均质量分 62
guopeiAI
曾任小米AI Lab图像算法工程师, 现任国内知名公司算法专家, 微信号:guopeiAI
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
OpenAI CLIP:4 亿图文对训练的视觉语言开山之作,零样本分类追平 ResNet,5 行代码解锁图文匹配,催生 Stable Diffusion 和整个多模态生态
OpenAI CLIP 是一个开创性的视觉语言预训练模型,通过对比学习将图像和文本映射到同一向量空间。它利用4亿图文对数据进行训练,实现了零样本分类性能媲美监督学习的ResNet50,并催生了Stable Diffusion等后续多模态模型。CLIP的核心是双塔架构,包含图像编码器(ViT/ResNet)和文本编码器(Transformer),通过计算余弦相似度进行图文匹配。该模型提供简洁的API,仅需5行代码即可实现图文推理,支持零样本分类和特征提取。CLIP的创新在于使用自然语言作为监督信号,打破了传统原创 2026-06-09 22:15:33 · 173 阅读 · 0 评论 -
YOLO26 正式发布!6 大任务一战封神,n 模型 mAP 40.9 跑 1.7ms,从检测到分割到姿态一条龙
Ultralytics YOLO 是计算机视觉领域的事实标准🏆6 大任务全覆盖:检测 / 分割 / 语义分割 / 分类 / 姿态 / 旋转框 + 跟踪⚡极致速度:YOLO26n T4 推理 1.7ms,嵌入式设备可用🎯SOTA 精度:YOLO26x 检测 mAP 57.5,各任务均达顶尖水平🛠️极简 API+ 三行代码,统一接口换模型只需改一行🚀一键部署🌐生态丰富:W&B / Comet / Roboflow / HUB 深度集成推荐指数:⭐⭐⭐⭐⭐。原创 2026-06-09 20:48:02 · 268 阅读 · 0 评论 -
文档去手写字迹:秒变标准文档的完整技术方案
本文介绍了一套自动化文档处理技术方案,通过三步流程实现文档去手写字迹和标准化处理。首先通过文档矫正(透视变换和旋转矫正)解决拍摄角度问题;然后进行图像增强(光照均衡化、去噪等)提升文档质量;最后通过分离手写与印刷内容实现手写字迹去除。该方案可有效应用于合同审批、试卷扫描等场景,显著提升OCR识别准确率(从72%提升至94%),解决了传统手动处理效率低、效果差的问题。原创 2026-03-26 12:54:05 · 981 阅读 · 0 评论 -
文档去手指:让文档扫描件变得更干净
本文介绍了一种基于深度学习的文档去手指算法,通过手指分割和内容修复两步流程实现文档图像的自动清洁。首先采用U-Net网络进行精确的手指分割,生成二值化Mask;然后利用Inpaint技术修复被遮挡区域。算法包含完整的数据增强策略、组合损失函数和Mask后处理优化,能够有效去除扫描文档中的手指干扰,提升OCR识别率和文档美观度。该方案相比传统方法具有自动化、高精度等优势,适用于书籍、合同、证件等各类文档处理场景。原创 2026-03-26 11:34:06 · 714 阅读 · 0 评论 -
Libtorch模型部署指南
前言:libtorch是pytorch原生支持的生态,理论上只要是pytorch训练的模型都能用libtorch部署,因为他们共用相同的c++代码。主要参考:Pytorch官网一. PyTorch模型转为Troch Scriptimport torchimport torchvision# An instance of your model.model = torchvision.models.resnet18()script_module = torch.jit.script(model原创 2022-05-18 17:25:08 · 2114 阅读 · 0 评论 -
图像去燥——TV Loss
1. 背景介绍 在图像复原过程中,图像上的一点点噪声可能就会对复原的结果产生非常大的影响,因为很多复原算法都会放大噪声。这时候我们就需要在最优化问题的模型中添加一些正则项来保持图像的光滑性,TV loss是常用的一种正则项(注意是正则项,配合其他loss一起使用,约束噪声)。图片中相邻像素值的差异可以通过降低TV loss来一定程度上解决。比如降噪,对抗checkerboard等等。2. 公式表达 即:求每一个像素和横向下一个像素的差的平方,加上纵向下一个像素...原创 2021-05-24 11:08:41 · 2883 阅读 · 0 评论 -
onnx 模型转换及推理时间对比
1. 环境准备 对比时间,和模型训练的环境相同,可能额外要安装的包是onnxruntime.pip install onnxruntime # for cpupip install onnxruntime-gpu # for gpu2. 测试过程 直接上代码吧,代码就是最好的解释。import cv2import timeimport torchimport numpy as npfrom torch.nn import DataParalle...原创 2021-04-29 20:53:44 · 5449 阅读 · 1 评论 -
基于fastreid训练行人属性模型
本文主要介绍用行人开源代码fastreid训练行人属性,行人属性数据集采用开源的PA00K。原创 2021-02-02 11:50:35 · 3249 阅读 · 10 评论 -
RuntimeError: Sizes of tensors must match except in dimension 1. Got 61 and 60 in dimension 2
RuntimeError: Sizes of tensors must match except in dimension 1. Got 61 and 60 in dimension 2原创 2021-01-15 16:18:16 · 27356 阅读 · 3 评论 -
DOCKER里面PYTORCH关于GLOO地址声明 && NCCL地址声明
在docker中用多卡训练pytorch相关的模型时,GPU之间通常要进行通信,本文主要解决在docker中多卡训练报错问题。原创 2021-01-08 14:02:56 · 2270 阅读 · 0 评论 -
模型训练技巧——label smoothing
使用应用label smoothing在绝大多数分类任务上能提高模型的准确率,本文主要用pytorch实现label smoothing,使它能方便的应用到项目中。原创 2020-05-06 17:01:21 · 2676 阅读 · 2 评论 -
ResNeSt——ResNet最强改进版
张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增。是ResNet的最强改进版本,博主已经讲该网络应用与工程项目中。原创 2020-04-20 23:42:04 · 21659 阅读 · 39 评论 -
三分钟带你配置深度学习环境
conda可以理解为一个工具,也是一个可执行命令,其核心功能是包管理与环境管理。包管理与pip的使用类似,环境管理则允许用户方便地安装不同版本的python并可以快速切换。 三分钟带你用conda配置深度学习环境。原创 2020-04-13 18:57:19 · 1005 阅读 · 0 评论
分享