深度学习
文章平均质量分 91
T1.Faker
此人很懒,什么都没有写
展开
-
Wav2Vec 2.0:语音表示自监督学习框架
Wav2Vec 2.0是目前自动语音识别的模型之一。Wav2Vec 2.0 代表了无监督预训练技术在语音识别领域的重大进步。这些方法通过直接从原始音频中学习,无需人工标记,因此可以有效利用大量未标记的语音数据集。相比于传统的监督学习数据集通常只有大约几百小时的标记数据,这些新方法已经能够扩展到使用多达 1,000,000 小时的未标记语音进行训练。在标准基准测试上进行微调后,这种方法在低数据环境中特别显著地提升了现有技术的表现。原创 2024-05-23 11:32:12 · 711 阅读 · 0 评论 -
融合卷积和注意力机制:有效整合它们优势的方法概述
CNNs和Transformers在计算机视觉领域都取得了巨大成功,但它们的底层原理不同,导致它们在学习数据表示方面有着不同的优势和局限性。CNNs以稀疏连接和参数共享为特点,更注重局部结构,拥有较少的参数。因此,即使在相对较小的数据集上进行训练时(例如ImageNet),它们也能很好地泛化,但在捕捉全局关系方面表现欠佳,尤其是与Transformers相比。另一方面,Transformers具有密集连接,并且根据输入值动态调整连接权重,因此它们更容易学习复杂的全局关系,具有更强的表现能力。但由于其高表现力原创 2024-04-26 18:13:14 · 1111 阅读 · 0 评论 -
为什么深度学习模型在 GPU 上运行得更快:CUDA 编程简介
当您运行某些深度学习模型时,您可能会选择使用一些流行的 Python 库,例如 PyTorch 或 TensorFlow。然而,众所周知,这些库的核心在底层运行 C/C++ 代码。此外,正如我们之前提到的,您可以使用 GPU 来加快处理速度。这就是 CUDA 发挥作用的地方!CUDA 代表统一计算架构,它是 NVIDIA 开发的用于在 GPU 上进行通用处理的平台。原创 2024-04-26 12:52:10 · 853 阅读 · 0 评论 -
神经网络压缩图像
典型的压缩管道由四个组件组成:编码:输入图像x通过编码器函数ε,将其转换为潜在表示z。量化:截断z以丢弃一些不重要的信息熵编码:使用某种形式的熵编码(例如:算术编码)来无损地存储截断的潜在z解码:原始x被重构为通过使用z通过解码器函数D获得x需要注意的是,压缩失真主要是由量化步骤造成的——编码器可以是一个双射函数。我们根据某种失真度量来衡量原始图像与重构图像之间的接近程度,其中常见的选择是平方误差ddxx∣∣x−x∣∣22。原创 2024-04-16 11:08:56 · 1800 阅读 · 0 评论 -
论文解读:Fine-grained Visual Classification with High-temperature Refinement and Background Suppression
细粒度的视觉分类是一项具有挑战性的任务,因为不同类别之间存在着高度相似性,同时同一类别内的数据也存在着明显差异。为了解决这些挑战,本文提出了一种新的网络模型,称为“高温细化和背景抑制”(HERBS),该模型由高温细化模块和背景抑制模块组成。高温细化模块允许网络学习适当的特征尺度,并提高各种特征的表征能力,而背景抑制模块则利用分类置信度将特征图分为前景和背景,并抑制低置信度区域中的特征值,从而提高了模型的判别能力。原创 2024-04-11 15:37:45 · 866 阅读 · 0 评论 -
从 YOLOv1 到 YOLO-NAS 的所有 YOLO 模型:论文解析
目标检测是计算机视觉中一项重要任务。简而言之,目标检测定义为目标定位 + 目标分类。目标定位是使用边界框在图像中定位对象的方法,而目标分类是告诉我们该边界框中有什么的方法。在2016年的CVPR上,Joseph Redmon与来自FAIR(Facebook AI Research)和Allen Institute for AI的研究人员共同发表了关于YOLO(You Only Look Once)的重要论文。当时,它是一种单阶段目标检测器的最先进技术。原创 2024-01-03 16:40:29 · 1588 阅读 · 0 评论 -
Single-Image Crowd Counting via Multi-Column Convolutional Neural Network
良好的人群计数方法也可以扩展到其他领域,如从显微图像中计数细胞或细菌、在野生动物保护区估算动物群体的数量,或者估算交通枢纽或交通拥堵中的车辆数量等。以前的方法主要采用检测风格的框架,通过在视频序列的两个连续帧上扫描检测器,基于增强外观和运动特征,估算行人的数量。然而,这些方法的局限性在于,它们通常假定人群由可以通过某些给定检测器检测到的单独实体组成,这在拥挤的环境或非常密集的人群中显着影响检测器性能和最终的估算准确性。然而,对于不同的场景和图像,需要综合利用多个信息源,以提高估算的准确性。原创 2024-01-02 08:55:04 · 1005 阅读 · 0 评论 -
探索三种生成模型:基于DDPMs、NCSNs和SDEs方法的Diffusion
去噪扩散模型代表了计算机视觉领域的一个新兴主题,取得了在生成建模方面的显著成果。该模型分为正向扩散阶段和反向扩散阶段。在正向扩散阶段,逐步添加高斯噪声逐渐扰动输入数据;在反向扩散阶段,模型通过学习逆转扩散过程逐步恢复原始输入数据。尽管计算负担较大,但由于生成样本的质量和多样性,扩散模型受到广泛赞赏。在计算机视觉中,扩散模型已应用于多个任务,包括图像生成、图像超分辨率、图像修复、图像编辑、图像翻译等。此外,扩散模型学到的潜在表示在判别任务中也被发现是有用的,例如图像分割、分类和异常检测。原创 2023-11-28 17:06:05 · 788 阅读 · 0 评论 -
GLM: 自回归空白填充的多任务预训练语言模型
当前,ChatGLM-6B 在自然语言处理领域日益流行。其卓越的技术特点和强大的语言建模能力使其成为对话语言模型中的佼佼者。让我们深入了解 ChatGLM-6B 的技术特点,探索它在对话模型中的创新之处。原创 2023-11-27 10:49:25 · 782 阅读 · 0 评论 -
深度学习模型训练计算量的估算
深度学习模型训练计算量的估算在当今的机器学习领域,深度学习模型的性能和先进性往往与其在更多计算资源上进行的训练有关。为了确保不同深度学习模型之间的准确比较,估算和报告训练过程中的计算资源使用情况变得至关重要。本文将探讨深度学习模型训练计算量的估算方法,并介绍了该领域的一些前沿。我们将重点介绍两种估算方法,以大家更好地理解和比较不同深度学习模型的训练计算量,这两种方法用于估算深度学习模型的训练计算量。原创 2023-11-23 14:58:32 · 417 阅读 · 0 评论 -
Weights and Biases使用教程
Weights and Biases已经成为AI社区中最受欢迎的库之一。下面我将结合一个示例来介绍如何使用wandb库。我们将使用一个标准的深度学习模型,在CIFAR10数据集上执行图像识别。需要注意的是,模型的具体细节并不会对我们的实验产生真正的影响,因此我选择保持模型尽可能简单。我们将从头开始训练这个模型,以探索如何充分利用wandb库第一步是安装该库并创建一个新账户。原创 2023-10-23 16:46:08 · 464 阅读 · 0 评论 -
Anomalib 图像异常检测算法
在工业生产中,质量保证是至关重要的,因为生产中的细小缺陷可能导致产品不合格,甚至损害消费者和企业的利益。工业异常检测是一项关键任务,旨在从大规模的生产数据中可靠地检测出异常情况,这些异常可能是缺陷、故障或其他不正常情况。异常,又被称为离群值,是一个在数据挖掘领域中常见的概念,已经有不少的工作尝试对异常数据进行定义。一般情况下,会将常见的异常样本分为3个类:点异常、上下文异常和集群异常。点异常一般表现为某些严重偏离正常数据分布范團的观测值,如下图a(a)a。原创 2023-10-19 15:52:47 · 1206 阅读 · 1 评论 -
ISR实现RDN图像增强
这项研究提出了一种新颖的图像超分辨率(SR)解决方案,即残差稠密网络(RDN),以应对SR领域的挑战。RDN的设计主要集中在充分利用图像中的分层特征,旨在提高性能并提供更清晰的超分辨率图像。RDN的关键特点分层特征利用:RDN充分利用了来自卷积神经网络的各个层次的分层特征。这有助于更好地理解图像的不同部分,并为超分辨率提供更多信息。残差稠密块(RDB):RDN引入了残差稠密块,这是一种密集连接的卷积层,用于提取图像的丰富局部特征。这有助于保留图像中的细节和纹理。原创 2023-10-18 15:02:45 · 316 阅读 · 0 评论 -
人群计数 Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework
在人群中对个体进行准确定位,与仅仅进行计数相比,更贴合于后续高级人群分析任务的实际需求。然而,现有的基于中间表示(例如密度图或伪框)作为学习目标的定位方法往往是反直觉的且容易产生错误。近期,涌现出一种全新的方法,旨在解决人群计数和个体定位的挑战。这种方法提出了一种纯点基框架,将个体定位与人群计数紧密结合。与传统方法仅仅报告图像级别的绝对计数误差不同,这个新方法引入了一种全新的度量标准,被称为密度标准化平均精度(nAP),以提供更全面和更精确的性能评估。原创 2023-08-10 12:37:30 · 369 阅读 · 0 评论 -
Meta-Transformer:基于Transformer的多模态感知,融合Token化与共享编码
论文标题:Meta-Transformer: A Unified Framework for。原创 2023-08-02 15:16:08 · 1503 阅读 · 0 评论 -
CoTracker跟踪器 - CoTracker: It is Better to Track Together
从最初的色彩恒定性方法,到FlowNet和FlowNet2等引领潮流的端到端卷积网络,再到更近期的Transformer和深度学习方法,该文对光流估计领域的技术进展进行了全面梳理。这种相关性的度量对于将轨迹与图像进行匹配和跟踪是非常重要的,因为它帮助模型在视频中找到与轨迹相关的图像区域,并用于更新轨迹的估计。同时,确保这样的点在训练数据中存在,通过在序列的中间帧中采样可见的点。是输入视频的帧序列,形状为(T, 3, H, W),其中T表示帧数,3表示RGB通道,H和W分别表示帧的高度和宽度。原创 2023-07-27 16:42:48 · 1297 阅读 · 4 评论 -
利用RLHF优化大模型:提升性能与应用能力
随着数据科学和人工智能领域的不断发展,大型语言模型和RLHF作为强大的工具正逐渐成为各种领域的重要组成部分。通过预训练和微调,大型语言模型能够具备丰富的语言表达能力,而RLHF则能够根据人类反馈持续改进模型的性能,使其更加智能和适应不同任务。然而,我们也必须认识到RLHF仍然面临着一些挑战,如可扩展性、人类偏见、解释性等问题。解决这些问题需要跨学科的研究和合作,以确保RLHF的应用能够安全、可靠、高效地应对现实世界的挑战。原创 2023-07-25 10:05:31 · 842 阅读 · 0 评论 -
深度学习调参指南
深度学习调参指南:优化性能与资源消耗的平衡欢迎来到深度学习调参的指南!本篇博客适用于对最大化深度学习性能感兴趣的工程师和研究人员,前提是你具备机器学习和深度学习概念的基本知识。在本文中,我们将聚焦于超参数调优的过程,同时还会涉及一些深度学习其他方面的内容。让我们从开始新项目的指南开始。原创 2023-07-21 13:22:04 · 1427 阅读 · 2 评论 -
大模型技术发展概述 - (一)
1.前言2.大模型概述2.1 大模型背景2.1.1 LLMs的规模定律2.1.2 LLM的新兴能力2.1.3 LLM的关键技术3.LLM模型配套资源3.1 公开可用的模型检查点和API3.2 常用的语料库3.3 库资源语言是人类表达和沟通的重要能力,在儿童早期发展,并随着一生的成长而演变。然而,机器要想像人类一样理解和使用语言进行交流,需要强大的人工智能算法的支持。这一目标一直是长期的研究挑战。在推动机器语言智能方面,语言建模(LM)是一种重要的技术方法之一。原创 2023-07-12 15:32:25 · 987 阅读 · 1 评论 -
大模型技术发展概述 -(三)
5. 适应性调整LLM5.1 指令(Instruction)调整5.1.1 格式化实例构建5.1.2 指令(Instrcution)调整策略5.1.3 指令调整的效果5.2 对齐调优5.2.1 对齐的背景和标准5.2.2 收集人类反馈5.2.3 从人类反馈中进行强化学习5.3 高效微调5.3.1 参数高效微调方法5.3.2 LLM的参数高效微调。原创 2023-07-12 15:20:17 · 402 阅读 · 0 评论 -
大模型技术发展概述 -(四)
6. 使用方法6.1 上下文学习6.1.1 提示形式6.1.2 示范设计6.1.3 潜在机制6.2 CoT提示6.2.1 CoT下的上下文学习6.2.2 CoT进一步讨论7. 性能评估7.1 基本评估任务7.1.1 语言生成7.1.2 知识利用7.1.3 复杂推理7.2 先进能力的评估7.3 公共基准和实证分析。原创 2023-07-12 15:19:34 · 357 阅读 · 0 评论 -
大模型技术发展概述 -(二)
4. LLM预训练4.1 数据收集4.1.1 数据源4.1.2 数据预处理4.1.3 预训练数据对LLMs的影响4.2 常用的LLM架构4.2.1 主流架构4.2.2 详细配置4.2.3 预训练任务4.3 模型训练4.3.1 优化设置4.3.2 可扩展训练技术。原创 2023-07-12 15:18:46 · 582 阅读 · 1 评论 -
Transformer时间序列:PatchTST引领时间序列预测进
如果仅仅使用逐点计算的注意力机制,模型只能关注当前时间步的价格,而无法获取到前一天的价格信息。最近的一篇论文甚至表明,简单的线性模型在许多基准数据集上优于复杂的基于Transformer的预测模型(参见Zheng等人,2022)。在时间序列预测任务中,我们需要从过去的时间步中提取信息,以预测未来的时间步。该方法假设未来的数值可以通过过去的数值来估计,并且随着时间的推移,过去的数值对于预测的影响逐渐减弱。大多数基于 Transformer 的预测模型的研究工作都集中在构建新的机制,以简化原始的注意力机制。原创 2023-06-28 14:09:45 · 3959 阅读 · 1 评论 -
如何使用配置文件参数 - 实现预训练模型训练
通过这种方法,用户可以根据自己的需求和任务特点,灵活地修改模型的架构、调整数据处理方式、优化训练策略和调整运行设置,以达到更好的性能和效果。示例:对于目标检测任务,你可以尝试不同的主干网络(如ResNet、EfficientNet等),调整网络的深度和通道数,尝试不同的检测头(如YOLO、SSD等),以及调整相关的超参数(如学习率、批量大小等)。使用配置文件我们可以脱离源代码的编写,只需要在配置文件中去修改模型的参数,增加对应的模型块,就可以实现修改模型的功能。不同的模型架构适用于不同的任务和数据集。原创 2023-06-27 16:59:59 · 996 阅读 · 0 评论 -
DAMO-YOLO:一种平衡速度和准确性的新目标检测框架
DAMO-YOLO是一种考虑了速度和准确性的目标检测框架,其效果超越了当前的YOLO系列方法,并在保持高推理速度的同时实现了SOTA。DAMO-YOLO在YOLO框架的基础上引入了一系列新技术,并对整个检测框架进行了重要修改。具体来说,它包括基于NAS搜索的新的检测主干结构,更深的中间结构,简化的头部结构,以及引入蒸馏技术以进一步改善效果。除了模型之外,DAMO-YOLO还提供了高效的训练策略和方便易用的部署工具,帮助您快速解决工业领域的实际问题!原创 2023-06-26 10:42:26 · 1914 阅读 · 0 评论 -
深度学习中的自动编码器
自编码器是一种用于数据压缩的人工神经网络,可以将输入数据压缩为较小的编码,然后将其解码回原始数据。它可以被视为一个无监督学习的算法,因为它不需要标记数据。原创 2023-04-06 10:30:46 · 714 阅读 · 0 评论 -
一文看懂“知识蒸馏”技术
过去几年中,深度学习已成为人工智能许多成功的基础,包括计算机视觉中的各种应用、强化学习。随着许多最新技术的帮助,包括残差连接和批量归一化,可以在强大的GPU或TPU集群上轻松训练数千层的非常深的模型。例如,使用数百万图像的流行图像识别基准测试可以在不到十分钟的时间内训练出ResNet模型;训练强大的BERT语言理解模型不需要超过一个半小时。大规模的深度模型取得了压倒性的成功,但是巨大的计算复杂度和大量的存储要求使得在实时应用中部署它们成为了一大挑战,尤其是在资源有限的设备上,比如视频监控和自动驾驶汽车。原创 2023-03-24 16:23:53 · 1797 阅读 · 0 评论 -
自监督学习技术综述
人工智能是当前科技领域最热门的话题之一。随着人工智能的发展,研究人员们不断探索新的技术手段和方法,以进一步提升人工智能系统的性能和能力。目前,人工智能的发展趋势主要包括大模型、多模态、知识蒸馏和自监督的结合。大模型是指通过增加模型参数、层数和计算资源,以提高模型的性能和表现。在自然语言处理和计算机视觉等领域,深度学习模型的表现和性能都得到了巨大的提升,这得益于大模型的应用和发展。多模态是指结合不同的数据来源,例如图像、文本、语音等,以提高模型的性能和能力。原创 2023-03-24 11:11:13 · 1220 阅读 · 0 评论 -
多模态技术综述
多模态机器学习是对计算机算法的研究,通过使用多模态数据集来学习和提高性能。多模式深度学习是一个机器学习子领域,旨在训练人工智能模型来处理和找到不同类型的数据(模式)之间的关系,通常是图像、视频、音频和文本。通过组合不同的模式,深度学习模型可以更普遍地理解其环境,因为一些线索只存在于某些模式中。想象一下情绪识别的任务。它不仅仅是看着人脸(视觉模态)。一个人的声音(音频模式)的音调和音高编码了大量关于他们情绪状态的信息,这些信息可能无法通过他们的面部表情看到,即使他们经常是同步的。原创 2023-03-21 16:23:57 · 2649 阅读 · 0 评论 -
从Transformer到ViT:多模态编码器算法原理解析与实现
Transformer架构是一种使用自注意力机制的神经网络,最初是由谷歌提出的,被广泛应用于自然语言处理和图像处理任务中。它是一种基于注意力机制的深度学习模型,适用于序列到序列的学习任务,例如机器翻译、语音识别、文本摘要等。多模态Transformer前部分encoder算法是近年来在计算机视觉领域备受瞩目的研究方向之一。它的出现极大地推动了多模态信息的融合与处理,被广泛应用于图像、文本等多种数据类型的处理。原创 2023-03-17 17:26:00 · 2739 阅读 · 4 评论 -
多模态特征融合:图像、语音、文本如何转为特征向量并进行分类
学习多模态的话题可以从深度学习的分类任务出发,因为分类任务是最直观的可以观察到不同模态的数据,通过输入数据到模型中,我们可以看到模型是如何学习到数据的特征向量的,同时分类任务的模型也是实现更复杂任务模型的基础。从分类任务中可以了解到图像、文本、语音在模型的特征向量是什么。以飞浆的多模态视频分类模型为例,这个模型基于真实的短视频业务数据,融合文本、视频图像、音频三种模态进行视频多模标签分类,相比只使用视频图像特征,显著提升了高层语义标签的效果。原创 2023-03-16 17:24:40 · 10201 阅读 · 11 评论 -
深度学习如何训练出好的模型
深度学习在近年来得到了广泛的应用,从图像识别、语音识别到自然语言处理等领域都有了卓越的表现。但是,要训练出一个高效准确的深度学习模型并不容易。不仅需要有高质量的数据、合适的模型和足够的计算资源,还需要根据任务和数据的特点进行合理的超参数调整、数据增强和模型微调。在本文中,我们将会详细介绍深度学习模型的训练流程,探讨超参数设置、数据增强技巧以及模型微调等方面的问题,帮助读者更好地训练出高效准确的深度学习模型。原创 2023-02-23 15:57:40 · 14173 阅读 · 13 评论 -
目标检测与目标跟踪算法技术汇总
由于其简单性,Deep SORT是这堆中最快的。它平均产生16FPS,同时仍然保持良好的准确性,这绝对使其成为多个物体检测的可靠选择。Tracktor++相当准确,但一个大缺点是它不适合实时跟踪。我们的实验得出的平均执行率为3FPS。如果实时执行不令人担忧,这是一个很好的竞争者。TrackR-CNN很好,因为它提供细分作为奖励。但与Tracktor++一样,它很难用于实时跟踪,平均执行率为1.6 FPS。JDE平均表现出12FPS的良好表现。原创 2023-02-14 15:06:59 · 3715 阅读 · 1 评论 -
使用Stabel Diffusion
Stabel Diffusion是由CompVis、stabel AI和LAION的研究人员和工程师创建的文本到图像的潜在扩散模型。它由来自LAION-5B数据库子集的512x512图像进行训练。LAION-5B是目前最大的、可自由访问的多模态数据集。在这篇文章中,将介绍如何使用diffusion库实现Stabel Diffusion模型生成图像,并讲解Stabel Diffusion的工作原理,最后深入了解diffusion如何允许用户自定义图像生成管道。如何有需要了解Diffusion原理的可以参考下面原创 2022-12-29 10:47:06 · 3701 阅读 · 1 评论 -
图像识别算法汇总
图像识别是一种机制,用于识别图像中的对象,并根据人类识别不同图像集中对象的方式将其分类为特定类别。原创 2022-12-02 16:34:54 · 20875 阅读 · 1 评论 -
数据增强方法汇总
例如,对于涉及房屋号码街景(SVHN)的图像,包括数字的自然场景图像,AutoAugment专注于剪切和平移等几何变换,这些变换代表了该数据集中常见的失真。它利用贝叶斯优化来发现您的图像数据集的特点,并量身定制的数据增强策略。augly.image所有函数都接受要作为输入增强的图像或PIL图像对象的路径,并返回增强的PIL图像对象。Sample是通过样本配对的方法实现数据增强,顾名思义使用几张样本图像,进行图像组合融合来实现数据增强的功能。接下来,使用SMOTE对少数类进行过采样,并绘制转换后的数据集。原创 2022-11-18 16:29:32 · 2545 阅读 · 0 评论 -
Diffusion Model算法
已知最初的原始图像的数据,前向过程,就是需要求得每一个。原创 2022-11-15 15:34:05 · 3122 阅读 · 1 评论 -
Generative Model - 李宏毅笔记
输入x。输出不同且具有创造的结果画画比如 画一个红眼睛的人脸GAN的变形GANACGANBGANCGANDCGANEBGANfGANGoGAN神奇宝贝比比鸟学习,根据周围环境,自学习进化,通过每次生成的。和判别器判断,进化生成器与判别器 对抗generato loss越小越好discriminator越大越好反复执行 训练 生成器后 固定 判别器 ,把生成器生成的给判别器判断(固定生成器,训练判别器),styleGAN 动画头像progressiveGAN人脸通原创 2022-11-11 11:48:17 · 1320 阅读 · 1 评论 -
深度学习提高模型准确率方法
嫌麻烦的:自己做的项目有现成的,就迁移学习 自己数据集单一的,就从数据集入手模型过拟合:就改进模型的超参数,或者正则化,权重衰减,Dropout模型欠拟合:就增加复杂模型,增加epoch模型训练时间过长:批次处理标准化。原创 2022-10-24 16:46:38 · 49020 阅读 · 42 评论 -
目标检测误检与负样本问题
负样本是指不包含任务所要识别的目标的图像,也叫负图像(Negtive Image)。以识别限速牌为例,如下所示,左图包含限速牌,为正样本,右图不包含限速牌,为背景图,即负样本增加负样本。原创 2022-10-13 16:00:08 · 3906 阅读 · 8 评论