深度学习拓展阅读
文章平均质量分 87
分享一些好文章
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
kaggle竞赛宝典 | 时序表示学习的综述!
本文综述了时间序列数据中的通用表示学习方法,提出了一种新颖的分类方法,并讨论了其对提高学习表示质量的影响。文章全面回顾了各种神经网络架构、学习目标和数据相关技术,并总结了常用的实验设置和数据集。原创 2024-07-23 21:04:14 · 760 阅读 · 0 评论 -
小白学视觉 | 漫谈图神经网络模型(GNN):从图到图卷积
本文试图沿着图神经网络的历史脉络,从最早基于不动点理论的图神经网络(GNN)一步步讲到当前用得最火的。笔者最近看了一些图与图卷积神经网络的论文,深感其强大,但一些Survey或教程默认了读者对图神经网络背景知识的了解,对未学过信号处理的读者不太友好。同时,很多教程只讲是什么,不讲为什么,也没有梳理清楚不同网络结构的区别与设计初衷(Motivation)。因此,本文试图沿着图神经网络的历史脉络,从最早基。原创 2024-07-23 20:45:28 · 712 阅读 · 0 评论 -
周报 | 24.7.15-24.7.21文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-07-22 16:53:31 · 875 阅读 · 0 评论 -
集智书童 | 超级干货 | 用万字文章总结25种正则化方法(值得收藏)
一些图像处理任务,如图像分类和目标检测,已经通过使用卷积神经网络(CNN)性能得到了显著的改进。像ResNet和EfficientNet一样,许多架构在创建时已经在至少一个数据集上取得了出色的结果。训练中的一个关键因素是网络的正则化,它可以防止模型在训练的过程中出现过拟合的现象。原创 2024-07-22 16:48:08 · 967 阅读 · 0 评论 -
OpenCV与AI深度学习 | 五分钟快速搭建一个实时人脸口罩检测系统(OpenCV+PaddleHub 含源码)
从19年疫情爆发到现在,佩戴口罩对大家来说已是常态。应运而生的就有了很多相关应用,如病毒发展预测、口罩佩戴检测以及戴口罩的人脸识别等。今天介绍的人脸口罩佩戴检测系统主要使用OpenCV和百度飞浆(PaddlePaddle)的PaddleHub提供的检测模型。PaddleHub提供了很多实用的模型,包括图像处理、文字处理、音频处理、视频处理和工业应用等。原创 2024-07-21 17:48:29 · 964 阅读 · 0 评论 -
Coggle数据科学 | Kaggle知识点:Ensemble PyTorch
在当今的深度学习领域,集成学习(Ensemble Learning)是一种广受欢迎的方法,通过组合多个模型的优势来提升整体性能。为了简化集成学习模型的构建和应用,Ensemble-PyTorch提供了一种便捷且高效的解决方案。原创 2024-07-21 17:44:55 · 943 阅读 · 0 评论 -
OpenCV与AI深度学习 | 低对比度缺陷检测应用实例--LCD屏幕脏污检测
本文主要介绍OpenCV在低对比度缺陷检测中的应用实例。原创 2024-07-18 17:38:47 · 408 阅读 · 0 评论 -
AIGC先锋科技 | 利用增强现实与改进 YOLOv5 检测 !
随着现代社会的不断发展,全球大多数国家的交通量持续增加,导致路面损坏率上升。因此,实时且高度准确的路面损坏检测与维护已成为当前的需求。在本文中,提出了一种基于CycleGAN和改进的YOLOv5算法的增强型路面损坏检测方法。作者选取了7644张自行收集的路面损坏样本图像作为初始数据集,并利用CycleGAN对其进行增强。原创 2024-07-17 17:58:18 · 696 阅读 · 0 评论 -
计算机视觉研究院 | CVPR:零样本通用分割框架(附源代码)
这种零样本分割能力依赖于语义空间中的类间关系,将从可见类别中学习到的视觉知识转移到不可见类别中。因此,希望很好地桥接语义视觉空间,并将语义关系应用于视觉特征学习。研究者引入了一个生成模型来合成不可见类别的特征,该模型连接了语义和视觉空间,并解决了缺乏不可见训练数据的问题。此外,为了缓解语义空间和视觉空间之间的领域差距。首先,通过学习primitives增强vanilla generator,每个都包含与类别相关的细粒度属性,并通过选择性地组装这些指令来合成看不见的特征。原创 2024-07-16 17:30:16 · 743 阅读 · 0 评论 -
周报 | 24.7.8-24.7.14文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-07-15 19:51:34 · 802 阅读 · 0 评论 -
程序员学长 | 快速学习一个算法,GAN
GAN 由两个部分组成:生成器(Generator)和判别器(Discriminator)。这两个部分通过一种对抗的过程来相互改进和优化。原创 2024-07-11 22:04:40 · 764 阅读 · 0 评论 -
周报 | 24.7.1-24.7.7文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-07-09 17:39:31 · 1074 阅读 · 0 评论 -
计算机视觉研究院 | 智慧建筑:基于YOLOv7的建筑外墙缺陷检测
与YOLOv7相比,BFD-YOLO的精度和mAP@.5分别提高了2.2%和2.9%,同时保持了相当的效率。下图显示了数据集中的缺陷示例。作为结构损伤检测的一个组成部分,建筑外墙缺陷的检测可以使政府和管理层准确了解建筑外墙的综合状况,从而有助于制定合理的维修方案。这些方法依赖于检查员的专业知识和经验,这是主观的、危险的和低效的。与数据路径设计策略相比,梯度路径设计策略侧重于分析梯度的来源和组成,以设计有效利用网络参数的网络架构。然而,获取建筑外墙缺陷的图像相对困难,并且在收集的数据中存在类别不平衡的问题。原创 2024-07-08 18:00:34 · 906 阅读 · 0 评论 -
计算机视觉研究院 | One-Shot都嫌多,Zero-Shot实例样本分割
实例分割(Instance Segmentation)是视觉经典四个任务中相对最难的一个,它既具备语义分割(Semantic Segmentation)的特点,需要做到像素层面上的分类,也具备目标检测(Object Detection)的一部分特点,即需要定位出不同实例,即使它们是同一种类。因此,实例分割的研究长期以来都有着两条线,分别是自下而上的基于语义分割的方法和自上而下的基于检测的方法,这两种方法都属于两阶段的方法,下面将分别简单介绍。原创 2024-07-06 20:55:05 · 833 阅读 · 0 评论 -
OpenCV与AI深度学习 | 实践教程|旋转目标检测模型-TensorRT 部署(C++)
本文详细的记录了一次旋转目标检测模型的C++部署过程,附有详细的代码。仓库地址(TensorRT,ncnn)github.com/Crescent-Ao/GGHL-Deployment:这次工程部署主要选择了比较熟悉的旋转选择框架-GGHL(原创 2024-07-04 17:29:16 · 846 阅读 · 0 评论 -
程序员学长 | 当 LSTM 遇上 Attention
本文来源公众号,仅用于学术分享,侵权删,干货满满。今天我们一起来聊一下深度学习中的注意力(Attention)机制注意力机制是深度学习中引入的一种技术,特别适用于通过引入注意力机制,Seq2Seq 模型能够在解码每个时间步时,动态地选择和关注输入序列中的不同部分,从而更好地捕捉输入序列的全局信息。在讨论注意力机制之前,我们先来了解一下 Seq2Seq 模型。原创 2024-07-03 18:57:56 · 894 阅读 · 0 评论 -
深度学习与NLP | 全面回顾最先进:AI大模型+RAG的综述!
在RAG中利用LLMs生成的文本时,模型将问题分为已知或未知,选择性地应用检索增强,或将LLM生成器用于取代检索器,通过迭代创建与检索增强生成器无界的内存池,使用内存选择器来选择作为原始问题的双重问题的输出,从而自我增强生成模型。块优化需要考虑索引内容的性质、嵌入模型、用户查询的预期长度和复杂性以及应用程序的使用情况,而微调嵌入模型需要使用专门领域的数据集,以提高模型准确捕捉特定领域信息的能力。最近的研究引入了多样化的方法,如摘要嵌入技术、元数据筛选技术和图索引技术等,以提高检索结果和RAG的性能。原创 2024-07-01 17:56:06 · 1071 阅读 · 0 评论 -
周报 | 24.6.24-24.6.30文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-07-01 17:52:10 · 939 阅读 · 0 评论 -
江大白 | 何凯明入职 MIT,首次带队提出Diffusion Loss,扩散模型思想提升生成速度和效果 !
在图像生成领域中,作者观察到并不是自回归建模的必要条件,并提出通过在连续值域上,操作的扩散过程来对每个标记的概率分布,进行建模。改进后的图像生成器在生成速度与效果上,都取得了巨大的提升。传统观点认为,用于通常伴随着向量量化标记。作者观察到,尽管离散值空间可以促进表示分类分布,但这并非自回归建模的必要条件。在这项工作中,作者提出使用扩散过程来建模每个标记的概率分布,这使得作者能够在连续值空间中应用自回归模型。原创 2024-06-30 21:17:58 · 696 阅读 · 0 评论 -
AI视界引擎 | 基于 YOLOv8 和计算机视觉 CV 的实时识别系统!
本研究旨在构建一个先进的马拉雅拉姆手语识别系统,旨在有效地检测静态手势。该系统不仅仅将这些手势翻译成字幕,而且还实现了实时操作,利用计算机视觉和深度学习的力量达到了令人满意的准确度。在未来范围方面,计划的扩展工作包括增强系统的功能,以涵盖动态手势。原创 2024-06-29 16:28:40 · 987 阅读 · 0 评论 -
我爱计算机视觉 | 超分辨率开源库 GitHub 热门项目分享
超分辨率(Super-Resolution)就是将低分辨率(low resolution)的图像通过算法提升到高分辨率(high resolution)的过程。超分辨率技术在多个领域有广泛应用,包括但不限于以下几个方面:医疗成像:在医学影像中,超分辨率技术可以帮助提高图像质量,使医生能够更清晰地观察和诊断疾病。安全监控:在安防监控系统中,超分辨率技术可以提高监控视频的分辨率,从而更有效地识别和跟踪目标。原创 2024-06-27 21:50:12 · 710 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法,RNN
今天给大家分享一个超强的算法模型,RNN循环神经网络(Recurrent Neural Network, RNN)是一种专门用于。由于其能够处理不同长度的输入序列,并保持过去信息的能力,。原创 2024-06-26 18:00:24 · 983 阅读 · 0 评论 -
周报 | 24.6.17-24.6.23文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-06-24 19:28:27 · 771 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法,Transformer(下)
上篇文章我们已经介绍了编码器中的大部分概念,也基本知道了编码器的原理。现在让我们来看下, 编码器和解码器是如何协同工作的。编码器一般有多层,第一个编码器的输入是一个序列文本,最后一个编码器输出是一组序列向量,这组序列向量会作为解码器的 K、V 输入,其中 K=V=解码器输出的序列向量表示。这些注意力向量将会输入到每个解码器的 Encoder-Decoder Attention 层,这有助于解码器把注意力集中到输入序列的合适位置,如下图所示。原创 2024-06-24 19:24:17 · 937 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法,Transformer(上)
今天给大家分享一个超强的算法模型,Transformer。我们会分两篇文章进行讲解。Transformer 模型是深度学习中一种「基于注意力机制」的模型,广泛应用于自然语言处理(NLP)任务,如机器翻译、文本生成和问答系统。它由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出,突破了传统序列模型(如RNN和LSTM)的限制,特别是在长距离依赖问题上表现出色。它是 ChatGPT 和所有其他 LLM 的支柱。原创 2024-06-23 17:14:48 · 839 阅读 · 0 评论 -
集智书童 | 深度学习与先验方法在遥感与无人机影像去雾中的应用与挑战!
雾霾条件,由诸如雨雪等自然现象以及城市和森林火灾等人造灾害引起,可以严重降低摄影、监控和遥感等应用中的图像质量。这种退化导致对比度降低和色彩偏移,最终阻碍计算机视觉(CV)模型的性能,导致目标检测、图像分类和图像分割结果不佳。因此,致力于从雾霾照片中提取清晰、高质量场景的研究数量在过去几十年里呈指数级增长。这一图像处理领域被称为_图像去雾_。在深度学习在CV和图像处理中广泛应用之前,图像去雾技术大多依赖于基于先验的方法,在这些方法中,对给定的雾霾图像应用了各种假设,以统计方式提取和计算其去雾参数。原创 2024-06-22 18:32:14 · 622 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法,CNN
神经网络是一种深度学习方法,源自人类大脑生物神经网络的概念。它由大量相互连接的人工神经元(也称为节点或单元)组成,每个神经元接收输入,进行简单处理后生成输出,并将结果传递给下一层的神经元。原创 2024-06-21 18:03:45 · 727 阅读 · 0 评论 -
Python数据科学 | 是时候跟Conda说再见了
conda作为Python数据科学领域的常用软件,是对Python环境及相关依赖进行管理的经典工具,通常集成在anaconda或miniconda等产品中供用户日常使用。但长久以来,conda在很多场景下运行缓慢卡顿、库解析速度过慢等问题也一直被用户所诟病,且由于anacondaminiconda本身属于「商业性质」的软件产品,导致很多公司在未获得商业许可的前提下,内部使用anacondaminiconda下载安装非开源许可渠道的软件库资源,被anaconda。原创 2024-06-20 21:45:14 · 740 阅读 · 0 评论 -
周报 | 24.6.10-24.6.16文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-06-18 23:57:56 · 1139 阅读 · 0 评论 -
天才程序员周弈帆 | Stable Diffusion 解读(三):原版实现源码解读(篇幅略长,建议收藏!)
看完了Stable Diffusion的论文,在最后这几篇文章里,我们来学习Stable Diffusion的代码实现。具体来说,我们会学习Stable Diffusion官方仓库及Diffusers开源库中有关采样算法和U-Net的代码,而不会学习有关训练、VAE、text encoder (CLIP) 的代码。如今大多数工作都只会用到预训练的Stable Diffusion,只学采样算法和U-Net代码就能理解大多数工作了。原创 2024-06-18 23:53:31 · 1307 阅读 · 0 评论 -
DeepDriving | 经典的目标检测算法:CenterNet
CenterNet将目标检测当做一个标准的关键点估计问题,将目标表示为一个在其bounding box中心位置的单独点,其他的一些属性比如目标尺寸、维度、朝向和姿态等则直接从这个中心点位置的图像特征中进行回归。该模型将图像输入到一个全卷积网络中用来生成热力图,热力图的峰值位置即为目标的中心,每个峰值位置的图像特征用来预测目标bounding box的宽度和高度。原创 2024-06-16 22:20:35 · 583 阅读 · 0 评论 -
OpenCV与AI深度学习 | 实战 | 通过微调SegFormer改进车道检测效果(数据集 + 源码)
实例分割在自动驾驶汽车技术的快速发展中发挥了关键作用。对于任何在道路上行驶的车辆来说,车道检测都是必不可少的。车道是道路上的标记,有助于区分道路上可行驶区域和不可行驶区域。车道检测算法有很多种,每种算法都有各自的优缺点。原创 2024-06-16 22:18:16 · 989 阅读 · 0 评论 -
DeepDriving | CUDA编程-05:流和事件
在CUDA中有两个级别的并发:内核级并发和网格级并发。前面的文章DeepDriving | CUDA编程-04:CUDA内存模型-CSDN博客介绍的是内核级并发,这种并发方式是通过数据并行的方式用多个GPU线程去并发地完成一个内核任务,而网格级并发则是把一个任务分解为多个内核任务,通过在一个设备上并发地运行多个内核任务来实现任务的并发执行,这种方式使得设备的利用率更高。CUDA流是一系列异步操作的集合,同一个CUDA流中的操作严格按照顺序在GPU上运行,使用多个流同时启动多个内核任务就可以实现网格级并发原创 2024-06-15 21:42:50 · 633 阅读 · 0 评论 -
GiantPandaCV | 提升分类模型acc(三):优化调参
这是本系列的第三篇文章,前两篇GiantPandaCV | 提升分类模型acc(一):BatchSize&LARS-CSDN博客主要是讲怎么取得速度&精度的平衡以及一些常用的调参技巧,本文主要结合自身经验讲解一些辅助训练的手段和技术。往期文章回顾:提升分类模型acc(一):BatchSize&LARS提升分类模型acc(二):Bag of TricksEMA, SWA基本上都不会影响训练的速度,还可能提点,建议打比赛大家都用起来,毕竟提升0.01都很关键。做业务的话可以不用太care这个东西。原创 2024-06-15 21:37:56 · 613 阅读 · 0 评论 -
小白玩转Python | Kangas:计算机视觉中的Pandas
Kangas正朝着成为计算机视觉数据处理和分析的Pandas的方向发展。其用户友好的API、速度、效率和易用性使其成为数据科学家和计算机视觉专家的宝贵工具。无论您是在进行前沿的自动驾驶项目还是仅仅为研究目的分析数据,Kangas都是完成工作的完美工具。原创 2024-06-14 17:27:50 · 831 阅读 · 0 评论 -
极市平台 | Mamba联名Diffusion?DiM:无需微调,高分辨图像生成更高效!
本文提出了一种新的基于Mamba的扩散模型 DiM,用于高效的高分辨率图像生成。Mamba 本是用于处理一维信号的模型,作者提出了几种有效的设计来使其能够对二维图像进行建模。原创 2024-06-13 17:58:59 · 1447 阅读 · 0 评论 -
GiantPandaCV | 提升分类模型acc(二):图像分类技巧实战
上一篇文章探讨了训练的bs大小和LARS对精度的影响,本篇文章是本系列的第二篇文章,主要是介绍张航的Bag of Tricks for Image Classification 中的一些方法以及自己实际使用的一些trick。原创 2024-06-12 17:55:11 · 1017 阅读 · 0 评论 -
CV技术指南 | 其实Mamba是一种线性注意力?清华大学黄高团队揭秘开视觉Mamba的真实面目!
Mamba 是一种具有线性计算复杂度的状态空间模型。其最近在处理不同视觉任务的高分辨率输入中展示出很不错的效率。本文揭示了 Mamba 模型与 Linear Attention Transformer 之间有着惊人的相似之处。作者通过探索 Mamba 和 Linear Transformer 之间的相似性和差异,在本文中提供了一个全面的分析来揭示 Mamba 成功的关键因素。原创 2024-06-11 19:10:04 · 1372 阅读 · 0 评论 -
小白玩转Python | 图像相似度比较之 CLIP or DINOv2(推荐阅读 ! )
在人工智能领域,计算机视觉的两大巨头是CLIP和DINOv2。CLIP改变了图像理解的方式,而DINOv2为自监督学习带来了新的方法。在本文中,我们将探索定义CLIP和DINOv2的强项和微妙之处的旅程。我们旨在发现这些模型中哪一个在图像相似度任务的世界中真正出色。让我们见证这两位巨头的较量,看看哪个模型胜出。原创 2024-06-11 18:28:27 · 1260 阅读 · 0 评论 -
周报 | 24.6.3-24.6.9文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-06-10 17:41:40 · 858 阅读 · 0 评论