图像处理+python+深度学习
文章平均质量分 83
图像处理+python,深度学习
wuling129
豫北某不著名学堂的修理地球/灵魂魔法师,门外汉兼乞丐一枚!工作极度平凡,家里地位边缘,丑男一个!鉴定完毕!
展开
-
[转]17 种加速 PyTorch 训练的方法
学习率 schedule 的选择对模型的收敛速度和泛化能力有很大的影响。Leslie N. Smith 等人在论文《Cyclical Learning Rates for Training Neural Networks》、《Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates 》中提出了周期性(Cyclical)学习率以及 1Cycle 学习率 schedule。转载 2024-04-23 09:39:41 · 15 阅读 · 0 评论 -
[转]Batch Size对网络模型训练的影响
theta 代表模型参数m 是训练数据样本的数量i 的每个值代表一个单一的训练数据样本J_i 表示应用于单个训练样本的损失函数通常,这是使用梯度下降来完成的,它计算损失函数相对于参数的梯度,并在该方向上迈出一步。随机梯度下降计算训练数据子集 B_k 上的梯度,而不是整个训练数据集。B_k 是从训练数据集中采样的一批,其大小可以从 1 到 m(训练数据点的总数)。这通常称为批量大小为 |B_k| 的小批量训练。转载 2024-04-22 17:19:42 · 10 阅读 · 0 评论 -
深度学习应用篇-计算机视觉-图像增广[1]:数据增广、图像混叠、图像剪裁类变化类等详解
在图像分类任务中,图像数据的增广是一种常用的正则化方法,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力,常用于数据量不足或者模型参数较多的场景。而对归一后之后的数据进行操作,裁剪的区域会是纯黑或纯白。在 RandAugment 中,作者提出了一种随机增广的方式,不再像 AutoAugment 中那样使用特定的概率确定是否使用某种子策略,而是所有的子策略都会以同样的概率被选择到,论文中的实验也表明这种数据增广方式即使在大模型的训练中也具有很好的效果。结果如 图13 所示。转载 2024-04-21 17:51:13 · 8 阅读 · 0 评论 -
【转载】神经网络常见评价指标超详细介绍(ROC曲线、AUC指标、AUROC)
考虑标签label和预测值pred,其数值如下:其散点图如下:怎样才能通过概率得到预测的类别呢?通常我们需要设置一个阈值,这里以0.5为例,当概率大于等于0.5时,分类器认为这个为真实类别;当概率小于0.5时,分类器认为这个不是真实类别,如下图所示:我们可以根据这个图得到当阈值为0.5时的混淆矩阵:实际上阈值可以取[0,1)之间的任意值,理论上可以取无数个混淆矩阵,而把所有的混淆矩阵表示在同一个二维空间中的方法称为ROC曲线。转载 2024-04-12 21:18:33 · 96 阅读 · 0 评论 -
【转载】为什么要做特征归一化/标准化?
原文链接:为什么要做特征的归一化/标准化?Feature scaling,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技术,有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性,最常用的2个例子可能是:特征间的单位(尺度)可能不同,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是[1000, 10000],另一个特征的变化范围可能是[−0.1,0.2],在进行距离有关的计算时,单位的不同会导致计算结果的不同,尺度大转载 2024-04-02 21:20:01 · 23 阅读 · 0 评论 -
[转载]STN:Spatial Transformer Networks 空间变换网络
卷积神经网络缺乏对输入数据保持空间不变的能力,导致模型性能下降。虽然CNN中引入池化层有助于满足这一特性,但这种空间不变性仅能在池化矩阵的范围内才具有平移不变性或者在卷积的深层层次上实现。在这篇文章中,作者提出了一种新的可学习模块,STN。这个可微模块可以插入现有的卷积结构中,使神经网络能够根据特征图像本身,主动地对特征图像进行空间变换,而不需要任何额外的训练监督或优化过程。转载 2024-04-02 10:58:24 · 27 阅读 · 0 评论 -
【转载】OpenCV ECC图像对齐实现与代码演示(Python / C++源码)
作者博客地址:https://blog.csdn.net/LuohenYJ 已关注。原创 2024-04-01 15:44:38 · 691 阅读 · 0 评论 -
【转载】标注工具Labelimg的安装与使用
我们知道,图片标注主要是用来创建自己的数据集,方便进行深度学习训练。本篇博客将推荐一款十分好用的图片标注工具LabelImg,重点介绍其安装以及使用的过程。如果想简便,请直接下载打包版本(下载地址见开头),无需编译,直接打开就能用!这款工具是全图形界面,用Python和Qt写的,最牛的是其标注信息可以直接转化成为XML文件,与PASCAL VOC以及ImageNet用的XML是一样的。转载 2024-03-13 20:00:16 · 36 阅读 · 0 评论 -
[转载]没有思考过 Embedding,不足以谈 AI
这篇文章把我关于语言模型中embedding的理解都介绍完了。但embedding 还不止这些。图像可以有embedding,句子和段落也可以有 embedding —— 本质都是通过一组数来表达意义。段落的 embedding 可以作为基于语义搜索的高效索引,AI 绘画技术的背后,有着这两种 embedding 的互动 —— 未来如果有一个大一统的多模态模型,embedding 必然是其中的基石和桥梁。转载 2024-03-06 11:56:12 · 30 阅读 · 0 评论 -
YOLOV8介绍
有具体部署和训练实现代码(有非常好的参考和启示价值)原创 2024-03-01 20:53:52 · 1419 阅读 · 1 评论 -
YOLOv9简介
YOLO v9转载 2024-02-29 11:56:10 · 1571 阅读 · 0 评论 -
[转载]ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy
作者对于 ConvNet 和 Vision Transformer 架构在 ImageNet 精度之外的模型行为进行了深入分析,每个架构都涵盖了有监督训练范式和 CLIP 训练范式。尽管作者选择的模型具有相似的 ImageNet 精度和计算要求,但本文发现它们在许多其他的方面有所不同:错误类型 (types of mistakes)输出校准 (output calibration)迁移性能 (transferability)特征方差 (feature invariance)转载 2024-02-27 09:50:46 · 34 阅读 · 0 评论 -
[转载]扩散模型的原理及实现(Pytorch)
本文讲述扩散模型的发展、原理及代码实践。转载 2024-02-25 10:16:19 · 214 阅读 · 0 评论 -
[转载]谈谈目标检测中,正负样本背后的本质问题
本篇不讲任何正负样本定义的方法以及各种采样的方法,只从实际训练角度结合量产经验思考正负样本背后的本质问题。转载 2024-02-22 10:14:58 · 37 阅读 · 0 评论 -
DHFormer: A Vision Transformer-Based Attention Module for Image Dehazing
在这篇论文中,提出了一种使用残差学习和视觉Transformer在注意力模块中结合的方法。该方法本质上包含两个网络:在第一个网络中,网络将雾图像的比例与近似传输矩阵估计残差图。第二个网络将这个残差图像作为输入,通过卷积层处理后,再将其叠加到生成的特征图上。然后通过全局上下文和深度感知Transformer编码器获得通道注意力。注意力模块在生成最终无雾图像之前推理空间注意力图。转载 2024-01-31 14:08:53 · 88 阅读 · 0 评论 -
Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects
最近的研究表明,视觉 Transformer (ViTs)出色的性能得益于大的感受野。因此,大的卷积核设计成为使卷积神经网络(CNNs)再次强大的理想解决方案。然而,典型的大的卷积核实际上是硬件不友好的运算符,导致各种硬件平台的兼容性降低。因此,简单地扩大卷积核大小是不明智的。在本文中,作者揭示了小卷积核和卷积操作可以达到大的卷积核的近似效果。然后,作者提出了一种移位操作符,通过稀疏机制帮助卷积神经网络捕捉长程依赖关系,同时保持对硬件的友好性。转载 2024-01-30 17:27:38 · 166 阅读 · 0 评论 -
Focaler-IoU开源,关注困难样本,YOLOv5涨点1.9%,YOLOv8涨点0.3%
在这篇文章中,作者分析了困难样本和容易样本分布对目标检测的影响。当困难样本占主导地位时,需要关注困难样本以提高检测性能。当简单样本的比例较大时,相反的情况是正确的。接下来,提出 Focaler-IoU 方法,通过线性区间映射重构原始 IoU 损失,以实现关注困难样本和容易样本的目标。最后,比较实验证明了所提出的方法可以有效地提高检测性能。转载 2024-01-28 16:11:17 · 284 阅读 · 0 评论 -
模型压缩:CNN和Transformer通用,修剪后精度几乎无损,速度提升40%
深度学习模型在目标检测的性能上取得了重大突破。然而,在传统模型中,例如Faster R-CNN和YOLO,由于计算资源有限和功率预算紧张,这些网络的规模使其难以部署在嵌入式移动设备上。研究者提出了一种新的有效模型深度修剪方法。新方法为子网提出了一种新的块修剪策略和渐进训练方法。此外,将修剪方法扩展到视觉Transformer模型。转载 2024-01-27 17:14:00 · 110 阅读 · 0 评论 -
转载:Global Feature Pyramid Network
视觉特征金字塔在目标检测任务中证明了其有效性和效率。然而,当前的方法往往过于强调层间特征交互,忽视了层内特征调整这一关键方面。经验强调了在增强目标检测任务方面,层内特征交互的重要优势。虽然一些方法试图通过注意力机制或视觉 Transformer 学习压缩的层内特征表示,但它们忽视了全局信息交互的整合。这种忽视导致了增加误检和遗漏目标。为了解决这一关键问题,本文引入了全局特征金字塔网络(GFPNet),这是对PAFPN的增强版,集成了全局信息以提高目标检测。转载 2024-01-03 15:45:07 · 112 阅读 · 1 评论 -
转载:理解 U-Net
U-Net 简介转载 2023-12-20 17:58:29 · 59 阅读 · 0 评论 -
转载:DAS: A Deformable Attention to Capture Salient Information in CNNs解读
卷积神经网络(CNNs)在局部空间模式识别方面表现出色。对于许多视觉任务,如物体识别和分割,显著信息也存在于CNN核边界之外。然而,由于CNN的受限制的感受野,它们在捕获这种相关信息时感到力不从心。自注意力机制可以提高模型获取全局信息的能力,但同时也增加了计算开销。作者提出了一种快速简单的全卷积方法DAS,它有助于将注意力集中在相关信息上。该方法使用了可变形卷积来表示相关图像区域的位置,并使用了可分卷积来实现效率。DAS可以插入到现有的CNN中,并使用门控机制传播相关信息。原创 2023-12-02 16:15:09 · 766 阅读 · 1 评论 -
转载:YOLOv8改进全新Inner-IoU损失函数:扩展到其他SIoU、CIoU等主流损失函数,带辅助边界框的损失
目标检测是计算机视觉中的基本任务,包括目标分类和定位。边界框回归损失函数是检测器定位分支的重要组成部分,检测器的定位精度在很大程度上取决于边界框回归,在当前的检测器中发挥着不可替代的作用。在BBR中,IoU损失可以准确描述预测边界框与GT框之间匹配的程度,确保模型在训练过程中可以学习到目标的位置信息。作为现有主流边界框回归损失函数的基本部分,IoU定义如下:B和分别代表预测框和GT框。定义IoU之后,相应的损失可以定义如下:至今,基于IoU的损失函数逐渐成为主流并占据主导地位。原创 2023-11-16 07:52:17 · 2366 阅读 · 0 评论 -
转载:SBCFormer:一种新型CNN-VIT轻量级混合网络, 首次以1 FPS 速度在SBC上实现 80% 的top-1 精度
文章地址:https://arxiv.org/ftp/arxiv/papers/2311/2311.03747.pdf项目地址:https://github.com/xyongLu/SBCFormer。转载 2023-11-15 22:12:29 · 232 阅读 · 0 评论 -
转载:TransXNet:聚合全局和局部信息的全新CNN-Transformer视觉主干,表现强大!
在微小版本中,注意组的数量固定为2个,以保证合理的计算成本,而在更深的小模型和基础模型中,使用越来越多的注意组来提高IDConv的灵活性,这类似于MHSA模块的头部数量随着模型的深入而增加。然而,本文方法在全局和局部动态以及多尺度token聚合的支持下,不仅在小目标上取得了优异的效果,而且在中大型目标上也明显优于先前的方法。由上式可知,STE的FLOPs为HWC(2C/r + 9),在实际操作中,将信道缩减比r设为8,但要保证压缩的信道数不小于16,这样得到的FLOPs明显小于1×1卷积的FLOPs,即。转载 2023-11-09 09:43:47 · 1401 阅读 · 0 评论 -
转载:计算机视觉Paper with code-2023.10.31
13.【超分辨率重建】(NeurIPS2023)Efficient Test-Time Adaptation for Super-Resolution with Second-Order Degradation and Reconstruction。22.【多模态】TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding。转载 2023-11-08 12:16:43 · 108 阅读 · 0 评论 -
转载:2023年9月-10月带有开源代码的OCR论文汇总
基于这些观察结果,作者更深入地研究了专用OCR模型的必要性,并探讨了充分利用GPT-4V等预训练通用LMM,将其用于OCR下游任务的策略,为今后将LMM用于OCR任务的研究提供了重要的参考。需要特别指出的是,EffOCR还允许简单、高效的样本定制,它包含一个简单的模型训练接口,由于其具有比较高的样本效率,因而只需要较少的标记需求。基于这些基本功能,DocXChain还实现了文档解析的整个流程,即文本读取、表解析和文档结构化,以驱动现实场景中与文档相关的各种应用程序。,使用XAI来理解STR的模型预测。转载 2023-11-08 12:19:32 · 187 阅读 · 0 评论 -
转载:ICCV2023 | SPIN:超像素聚类与Transformer结合的轻量级图像超分辨率网络,性能SOTA
提出了一种新的超级token交互网络(SPIN)。该方法利用超像素对局部相似像素进行聚类,形成可解释(因为只有相似的区域相互补充,不相似的区域被排除在外。)的局部区域,并利用超像素内关注实现局部信息交互。转载 2023-10-30 11:32:56 · 598 阅读 · 0 评论 -
转载:【CVPR2023】多视图对抗判别器 MAD :挖掘未知领域目标检测中的非因果因素
论文题目:Multi-view Adversarial Discriminator: Mine the Non-causal Factors for Object Detection in Unseen Domains代码:https://github.com/K2OKOH/MAD这篇论文探讨了一个具有挑战性的问题,即如何在实际应用中将目标检测模型适应到未知的目标领域。在传统的目标检测方法中,通常基于独立同分布(i.i.d.)的假设,即训练和测试数据集具有相同的分布。转载 2023-10-18 15:53:34 · 84 阅读 · 0 评论 -
转载:引入目标之间的先验关系提升目标检测器性能Relational Prior Knowledge Graphs for Detection and Instance
论文标题:Relational Prior Knowledge Graphs for Detection and Instance Segmentation机构:阿姆斯特丹大学、TomTom论文地址:https://arxiv.org/pdf/2310.07573.pdf开源代码(即将开源):https://github.com/ozzyou/RP-FEM关键词:目标检测、实例分割。转载 2023-10-18 15:44:17 · 91 阅读 · 0 评论 -
转载:[PR 2023] 基于部首自信息量的零样本汉字识别新方法Self-information of radicals: A new clue for zero-shot Chinese chara
论文以信息论的视角分析了部首在汉字识别中的重要性,提出了一种基于原型学习的特征提取网络,并针对:(1)基于序列匹配的识别方法,提出了汉字不确定性消除框架(CUE);此外,在ZSCCR任务中,以往的方法通常假设所有部首对模型的识别贡献相等,忽略了罕见部首对识别结果的影响。本文提出的方法基于部首的自信息量(SIR)分析了部首在汉字识别中的重要性,并将SIR方法应用到基于序列匹配的方法和基于属性嵌入的方法中,分别提出了字符不确定性消除框架(CUE)和部首信息嵌入法(RIE)。(3)基于序列匹配的方法(CUE)。转载 2023-10-18 15:11:20 · 208 阅读 · 0 评论 -
转载:超级干货 | 数据平滑9大妙招
对数据进行平滑处理的方法有很多种,具体的选择取决于数据的性质和处理的目的。今天给大家分享9大常见数据平滑方法:移动平均Moving Average指数平滑Exponential Smoothing低通滤波器多项式拟合贝塞尔曲线拟合局部加权散点平滑LoessKalman滤波小波变换Savitzky-Golay滤波转载 2023-10-16 16:59:29 · 2735 阅读 · 0 评论 -
转载:Anchor-Base与KeyPoint-Base相结合,清华+国科大提出,全新涨点思路
导读在计算机视觉中,目标检测是一个关键任务,需要在图像中识别和定位物体。本文提出了Anchor-Intermediate Detector(AID),一种新颖的目标检测架构,结合了Anchor-Base和Anchor-Free的优点。利用角点感知Head提高定位精度,同时使用Anchor-Base的Head缓解角点配对问题。其在多种网络结构上表现出色,并在MS COCO数据集上取得了先进结果。转载 2023-10-16 16:20:35 · 252 阅读 · 0 评论 -
转载:YoloCS:有效降低特征图空间复杂度
通过压缩特征图的空间分辨率,提高了对象检测的准确性和速度。本文的主要贡献在于引入了一种新的特征空间固化方法,能够有效地降低特征图的时空复杂度,提高对象检测的效率和准确性。转载 2023-10-16 15:46:35 · 37 阅读 · 0 评论 -
转载:万字长文,深度解读AI项目开发流程及边缘设备部署经验(备将来用)
围绕深度学习应用部署转载 2023-10-08 12:14:47 · 570 阅读 · 0 评论 -
转载:目标检测即插即用 | Uni-Head | UniHead Unifying Multi-Perception for Detection Heads
作者开发了一种创新的检测Head,称为UniHead,可以同时统一三种感知能力。更具体地说,作者的方法包含:引入了Deformation感知,使模型能够自适应地采样目标特征;提出了双轴聚合Transformer(DAT),以熟练地建模长距离依赖关系,从而实现全局感知;设计了一个跨任务交互Transformer(CIT),促进了分类和定位分支之间的交互,从而使这两个任务保持一致。转载 2023-10-08 11:53:57 · 464 阅读 · 0 评论 -
转载:图解机器学习特征工程
图解特征工程转载 2023-10-08 10:22:40 · 94 阅读 · 0 评论 -
转载:21张让你代码能力突飞猛进的速查表(神经网络、线性代数、可视化等)
随着深度学习的蓬勃发展,越来越多的小伙伴们开始使用python作为主打代码,python有着种类繁多的第三方库,这里为大家从网络上收集了一些代码速查表,希望可以帮你在码代码时提速转载 2023-10-08 10:08:24 · 38 阅读 · 0 评论 -
论文解读:A tree-structure analysis network on handwritten Chinese character error correction
本文中,我们从纠错的角度来研究汉字,即诊断手写字符的对错,并在错误分析中提供反馈。对于这个手写汉字纠错任务,我们首次通过统一评估指标和数据分割来定义基准。我们设计了一个包括分解、判断和校正阶段的诊断系统。原创 2023-10-05 16:31:16 · 206 阅读 · 0 评论 -
转载:Python特征重要性分析的9个常用方法
特征重要性分析用于了解每个特征(变量或输入)对于做出预测的有用性或价值。目标是确定对模型输出影响最大的最重要的特征,它是机器学习中经常使用的一种方法。转载 2023-10-04 14:57:58 · 36 阅读 · 0 评论 -
增量学习综述
感觉将来也要用到增量学习,先记录下来备用吧!转载 2023-10-04 14:44:06 · 59 阅读 · 0 评论