高质量人类CV论文翻译
文章平均质量分 94
本专栏是对常用的经典论文翻译,欢迎大家订阅
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
AI浩
2022年博客之星Top8,2021年博客之星Top6,博客专家,华为云云享专家,十佳博主,阿里云专家博主,拥有多项发明专利并参与过国家重大专项,拥有丰富的开发经验。注重理论与实践的结合,让AI学起来不再枯燥。如果大家在看文章的时候,发现了文章的错误,烦请指出,我会及时纠正。
展开
-
专栏目录汇总
【第61篇】AlexNet:CNN开山之作【第1篇】VGG【第2篇】GooLeNet【第3篇】Inception V2【第4篇】Inception V3【第62篇】Inception-v4【第5篇】ResNet【第10篇】DenseNet【第16篇】Swin Transformer【第49篇】Swin Transformer V2:扩展容量和分辨率【第21篇】MAE(屏蔽自编码器是可扩展的视觉学习器)【第22篇】CoAtNet:将卷积和注意力结合到所有数据大小上【第25篇】力压Tramsformer,Con原创 2023-01-01 15:20:38 · 786 阅读 · 1 评论 -
【第61篇】AlexNet:CNN开山之作
摘要。原创 2022-12-31 10:27:56 · 524 阅读 · 1 评论 -
YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images
由于以下因素,从航拍图像中检测物体面临着重大挑战:1)航拍图像通常具有非常大的尺寸,通常有数百万甚至数亿像素,而计算资源有限。2)物体尺寸较小导致有效信息不足,无法进行有效检测。3)物体分布不均匀导致计算资源浪费。为了解决这些问题,我们提出YOLC(You Only Look Clusters),一种基于无锚点目标检测器CenterNet的高效且有效的框架。为了克服大规模图像和非均匀物体分布带来的挑战,我们引入了一个局部尺度模块(LSM),该模块自适应地搜索聚类区域以进行缩放以进行准确检测。原创 2024-04-16 20:45:00 · 1955 阅读 · 0 评论 -
ELA:深度卷积神经网络的高效局部注意力机制
注意力机制由于其能够有效提升深度神经网络性能的能力,在计算机视觉领域获得了广泛认可。然而,现有方法往往难以有效利用空间信息,或者在利用空间信息的同时会牺牲通道维度或增加神经网络的复杂性。为了解决这些局限性,本文提出了一种高效的局部注意力(ELA)方法,该方法以简单的结构实现了显著的性能提升。通过分析坐标注意力方法的局限性,我们发现了批量归一化缺乏泛化能力、维度减少对通道注意力的不利影响以及注意力生成过程的复杂性等问题。为了克服这些挑战,我们提出了将一维卷积和组归一化特征增强技术融入ELA的方法。原创 2024-04-05 07:48:08 · 1133 阅读 · 1 评论 -
EfficientVMamba:轻量级视觉Mamba的空洞选择性扫描
https://arxiv.org/pdf/2403.09977.pdf摘要。先前的轻量级模型开发努力主要集中在基于CNN和Transformer的设计上,但仍面临持续的挑战。CNN擅长局部特征提取,但会牺牲分辨率,而Transformer提供了全局范围,但会加剧计算需求O(N2)\mathcal{O}(N^{2})O(N2)。这种持续存在的准确性和效率之间的权衡仍然是一个重大障碍。最近,状态空间模型(SSM),如Mamba,已在语言建模和计算机视觉等各种任务中显示出出色的性能和竞争力,同时将全局信息提取原创 2024-03-28 18:29:51 · 992 阅读 · 2 评论 -
ECA-Net:用于深度卷积神经网络的高效通道注意力
最近,通道注意机制已被证明在改善深度卷积神经网络(CNN)的性能方面具有巨大潜力。然而,大多数现有方法致力于开发更复杂的注意模块以实现更好的性能,这不可避免地会增加模型的复杂性。为了克服性能和复杂性折衷之间的矛盾,本文提出了一种有效的信道注意(ECA)模块,该模块仅包含少量参数,同时带来明显的性能提升。通过剖析SENet中的通道注意模块,我们从经验上表明避免降维对于学习通道注意很重要,并且适当的跨通道交互可以在保持性能的同时显着降低模型的复杂性。原创 2024-03-24 10:22:04 · 174 阅读 · 3 评论 -
Poly Kernel Inception Network在遥感检测中的应用
遥感图像(RSI)中的目标检测近年来引起了广泛关注[11, 56, 64]。这项任务致力于在RSI中识别特定目标的存在,并随后确定它们的类别和精确位置。与通常产生水平边界框的通用目标检测不同,遥感目标检测旨在生成与目标方向准确对齐的边界框。因此,先前的许多努力都致力于开发各种有向边界框(OBB)检测器[10, 20, 31, 65, 67, 71],并改进OBB的角度预测精度[68,70,72-74]。然而,在改善用于目标检测的特征提取方面,RSI的独特特性仍相对缺乏深入研究。原创 2024-03-19 07:10:45 · 741 阅读 · 4 评论 -
焦点调制网络
我们提出了焦点调制网络(简称FocalNets),其中自注意力(SA)被焦点调制模块完全取代,用于在视觉中建模令牌交互。焦点调制包含三个组件:(i)焦点上下文化,通过堆叠深度卷积层实现,以从短到长范围编码视觉上下文;(ii)门控聚合,用于选择性地收集上下文信息到每个查询令牌的调制器中;(iii)元素级仿射变换,将调制器注入查询中。原创 2024-03-12 21:12:01 · 482 阅读 · 0 评论 -
TransNeXt:ViT的鲁棒Foveal视觉感知
论文:https://arxiv.org/pdf/2311.17132.pdf由于残差连接中的深度退化效应,许多依赖堆叠层进行信息交换的高效视觉Transformer模型往往无法形成充分的信息混合,导致不自然的视觉感知。为了解决这个问题,本文提出了聚合注意力(Aggregated Attention),这是一种基于仿生设计的令牌混合器,它模拟了生物的中心凹视觉和连续的眼球运动,同时使特征图上的每个令牌都能具有全局感知能力。原创 2024-03-08 19:16:14 · 167 阅读 · 0 评论 -
YOLOv9:使用可编程梯度信息学习您想学习的内容
基于深度学习的模型在计算机视觉、语言处理和语音识别等各个领域都表现出了比过去的人工智能系统更好的性能。近年来,深度学习领域的研究人员主要关注如何开发更强大的系统架构和学习方法,如卷积神经网络(CNNs)[21-23, 42, 55, 71, 72]、Transformers[8, 9, 40, 41, 60, 69, 70]、Perceivers[26, 26, 32, 52, 56, 81, 81]和Mambas[17, 38, 80]。原创 2024-03-01 19:50:25 · 391 阅读 · 0 评论 -
Mamba-UNet:用于医学图像分割的类似UNet的纯视觉Mamba网络
所提出的Mamba-UNet的架构如图2所示,其灵感来源于UNet [24] 和 Swin-UNet [3]。首先将大小为 H × W × 1 的2D灰度图像分割成类似于ViT和VMamba的块 [5,16],然后转换为维度为 H/4 × W/4 × 16 的1D序列。一个初始的线性嵌入层将特征维度调整为任意大小C。这些块令牌随后通过多个VSS块和块合并层进行处理,以创建分层特征。块合并层负责下采样和维度增加,而VSS块则专注于学习特征表示。原创 2024-02-14 12:53:25 · 2470 阅读 · 3 评论 -
Shape-IoU:考虑边框形状与尺度的度量
作为检测器定位分支的重要组成部分,边界框回归损失在目标检测任务中发挥着重要作用。现有的边界框回归方法通常考虑真实框(GT box)与预测框之间的几何关系,并使用边界框的相对位置和形状来计算损失,而忽略了边界框的固有属性(如形状和尺度)对边界框回归的影响。为了弥补现有研究的不足,本文提出了一种专注于边界框本身形状和尺度的边界框回归方法。首先,我们分析了边界框的回归特性,发现边界框本身的形状和尺度因素会对回归结果产生影响。原创 2024-01-07 10:51:45 · 1077 阅读 · 0 评论 -
通过生成表征的自条件图像生成
本文提出了表示条件图像生成(Representation-Conditioned Image Generation,简称RCG),这是一个简单而有效的图像生成框架,在类别无条件的图像生成中设置了新的基准。RCG不依赖于任何人类标注,而是依赖于一种自监督表示分布,该分布是使用预训练编码器从图像分布中映射出来的。在生成过程中,RCG使用表示扩散模型(Representation Diffusion Model,简称RDM)从这样的表示分布中进行采样,并使用像素生成器根据采样的表示来生成图像像素。原创 2023-12-22 18:03:47 · 498 阅读 · 0 评论 -
TransXNet:使用双动态令牌混合器学习全局和局部动态以实现视觉识别
这段文字主要讨论了计算机视觉中的两种模型:Vision Transformer (ViT) 和 Swin Transformer。ViT使用多头自注意力(MHSA)进行长距离建模,取得了显著的进展,但由于其自身没有固有地编码归纳偏置,因此相对于卷积神经网络(CNN),其泛化能力较弱。为了解决这一限制,Swin Transformer引入了移位窗口自注意力,这种结构既引入了归纳偏置,又降低了MHSA的计算成本。但由于Swin Transformer是基于窗口的局部性质,其感受野有限。原创 2023-12-16 13:38:13 · 1065 阅读 · 0 评论 -
AKConv:具有任意采样形状和任意数目参数的卷积核
基于卷积运算的神经网络在深度学习领域取得了显著的成果,但标准卷积运算存在两个固有缺陷。一方面,卷积运算被限制在一个局部窗口,不能从其他位置捕获信息,并且其采样形状是固定的;另一方面,卷积核的大小是固定为k × k的,它是一个固定的方形形状,参数的数量往往与大小成正比。很明显,在不同的数据集和不同的位置,目标的形状和大小是不同的。具有固定样本形状和正方形的卷积核不能很好地适应不断变化的目标。原创 2023-11-29 22:00:00 · 1727 阅读 · 0 评论 -
YOLO的全面综述:从YOLOv1到最新版本
YOLO已成为机器人、无人驾驶汽车和视频监控应用的核心实时目标检测系统。我们全面分析了YOLO的演变,研究了从原始YOLO到YOLOv8、YOLO-NAS和带有Transformer的YOLO的每次迭代的创新和贡献。我们首先描述了标准指标和后处理;然后,我们讨论了每个模型在网络架构和训练技巧方面的主要变化。最后,我们总结了YOLO开发的重要经验教训,并对其未来提出了看法,强调了增强实时目标检测系统的潜在研究方向。关键词YOLO·目标检测·深度学习·计算机视觉。原创 2023-12-07 22:07:18 · 5697 阅读 · 2 评论 -
UniRepLKNet:用于音频、视频、点云、时间序列和图像识别的通用感知大内核ConvNet
大核卷积神经网络(ConvNets)最近受到了广泛的研究关注,但存在两个未解决的关键问题需要进一步研究。(1)现有大核ConvNets的架构在很大程度上遵循传统ConvNets或Transformers的设计原则,而大核ConvNets的架构设计仍未得到充分解决。(2)随着Transformer 在多种模式下的主导地位,尚待研究的是,ConvNets是否在视觉以外的领域也具有强大的通用感知能力。本文从两个方面进行了贡献。原创 2023-12-07 20:33:53 · 1641 阅读 · 0 评论 -
Hiera:一个没有花哨的分层视觉转换器
现代分层视觉转换器在追求监督分类性能时增加了几种视觉特定组件。虽然这些组件可以提高准确性和吸引人的浮点运算次数,但增加的复杂性实际上使这些转换器比普通ViT转换器慢。在本文中,我们认为这种额外的复杂性是不必要的。通过使用强大的视觉预训练任务(MAE)进行预训练,我们可以从最先进的视觉转换器中去除所有花里胡哨的东西,同时不会丢失准确性。在此过程中,我们创建了Hiera,这是一种极其简单的分层视觉转换器,它比以前的模型更准确,同时在推理和训练过程中速度更快。我们在各种图像和视频识别任务上评估了Hiera。原创 2023-11-27 06:17:43 · 857 阅读 · 0 评论 -
RevCol:可逆的柱状神经网络
信息瓶颈原则(IB)(Tishby等人,2000年;Tishby和Zaslavsky,2015年)统治着深度学习世界。考虑图1(a)中的典型监督学习网络:靠近输入的层包含更多低级信息,而靠近输出的特征则富含语义含义。换句话说,与目标无关的信息在逐层传播过程中逐渐被压缩。原创 2023-11-24 18:50:15 · 1724 阅读 · 2 评论 -
DSCNet:基于拓扑几何约束的动态蛇形卷积管状结构分割
拓扑管状结构(如血管和道路)的准确分割在各个领域都至关重要,可以确保下游任务的准确性和效率。然而,许多因素使任务复杂化,包括薄的局部结构和可变的全局形态。在这项工作中,我们注意到管状结构的特殊性,并利用这一知识指导我们的DSCNet在三个阶段同时增强感知:特征提取、特征融合和损失约束。首先,我们提出了一种动态蛇形卷积,通过自适应聚焦细长和弯曲的局部结构来准确捕捉管状结构的特征。随后,我们提出了一种多视角特征融合策略,以补充特征融合过程中对多个视角特征的关注,确保保留来自不同全局形态的重要信息。原创 2023-11-21 05:57:43 · 317 阅读 · 0 评论 -
抗混叠在微小目标检测中的重要性
小物体检测在研究社区中获得了相当大的关注,这是由于在许多关键的现实世界场景中经常出现小物体。然而,作为目标检测架构的主干,卷积神经网络(CNN)在降采样操作过程中通常忽略奈奎斯特采样定理,导致混叠和性能下降。对于占据像素非常少的小物体来说,这可能是一个特别的问题,因为它们具有高空间频率特征。本文将现有的抗混叠方法WaveCNet应用于小物体检测。WaveCNet通过用小波池化(WaveletPool)层替换CNN中的标准降采样过程来消除混叠,有效地抑制了混叠。原创 2023-11-21 21:01:27 · 195 阅读 · 0 评论 -
RT-DERT:在实时目标检测上,DETRs打败了yolo
论文:https://arxiv.org/pdf/2304.08069.pdf最近,基于Transformer的端到端检测器(DETRs)取得了显著的成果。然而,DETRs的高计算成本限制了它们的实际应用,并阻止了它们充分利用无后处理(例如非极大值抑制(NMS))的优势。在本文中,我们首先分析了NMS对现有实时目标检测器的准确性和速度的负面影响,并建立了端到端的实时速度基准。原创 2023-11-01 22:02:23 · 854 阅读 · 1 评论 -
AFPN:用于目标检测的渐近特征金字塔网络
在目标检测任务中, 多尺度特征在编码具有尺度方差的 目标方面具有重要意义。多尺度特征提取的一种常见策略是采用经 典的自上而下和自下而上的特征金字塔网络。然而, 这些方法存在 特征信息丢失或退化的问题, 削弱了非相邻层次的融合效果。本文 提出了一种支持非相邻层次直接交互的渐近特征金字塔网络 (AFPN)。AFPN首先融合两个相邻的低级特征, 然后逐渐将高级特 征纳入融合过程。通过这种方式, 可以避免不相邻层次之间更大的 语义鸿沟。原创 2023-10-14 10:26:47 · 1779 阅读 · 1 评论 -
大选择核网络在遥感目标检测中的应用
遥感目标检测【75】是计算机视觉的一个领域,专注于在航空图像中识别和定位感兴趣的物体,如车辆或飞机。近年来,一个主流趋势是生成准确符合被检测物体方向的边界框,而不是简单地在它们周围绘制水平框。因此,大量的研究集中在改进遥感目标检测中有向边界框的表示。这主要是通过开发专门的检测框架实现的,如RoI Transformer【12】、Oriented R-CNN【62】和R3Det【68】,以及有向框编码技术,如滑动顶点【64】和中点偏移框编码【62】。原创 2023-10-02 17:25:01 · 972 阅读 · 2 评论 -
RepViT: 从ViT视角重新审视移动CNN
针对轻量级模型的研究一直是计算机视觉任务的重点,目标是实现卓越的模型性能,同时降低计算成本。这对于资源有限的移动设备尤为重要,使得视觉模型可以在边缘进行部署。在过去的十年中,研究人员主要关注轻量级卷积神经网络(CNNs)的设计,并取得了重大进展。提出了许多有效的设计原则,包括可分离卷积[20],倒残差瓶颈[43],通道洗牌[34,63],和结构重参数化[11],从而产生了代表性的模型,如MobileNets [19,20,43],ShuffleNets [34,63],和RepVGG [11]。原创 2023-09-16 18:49:59 · 1103 阅读 · 0 评论 -
SG-Former:具有进化Token重新分配的自引导Transformer
Transformer模型[49]起源于自然语言处理(NLP),最近在视觉学习中展示了最先进的性能。视觉Transformer(ViT)的开创性工作[10]引入了自注意力模块,并明确地建模了图像补丁之间的长程依赖性,从而克服了卷积中本地感受野的固有限制,提高了各种任务的表现[9,27,56,70,74,1]。尽管取得了巨大的成功,但自注意力的计算成本随着序列长度的增加而呈二次增长,这反过来又极大地限制了其在大规模输入上的应用。为了降低计算成本,ViT采用大步长补丁嵌入来减少序列长度。原创 2023-09-09 13:02:37 · 380 阅读 · 0 评论 -
SCConv:用于特征冗余的空间和通道重构卷积
代码链接:https://github.com/cheng-haha/ScConv论文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_SCConv_Spatial_and_Channel_Reconstruction_Convolution_for_Feature_Redundancy_CVPR_2023_paper.pdf。原创 2023-09-08 15:57:36 · 474 阅读 · 0 评论 -
边界框回归的魔法:揭秘精准高效的MPDIoU损失函数
边界框回归(BBR)已广泛应用于目标检测和实例分割,这是目标定位的重要步骤。然而,现有的大多数边界框回归损失函数在预测框与地面真相框具有相同长宽比但宽度和高度值完全不同的情况下无法优化。为了解决上述问题,我们充分探索了水平矩形的几何特征,并基于最小点距离提出了一种新颖的边界框相似性比较度量MPDIoU,该度量包含了现有损失函数中考虑的所有相关因素,即重叠或非重叠区域、中心点距离以及宽度和高度偏差,同时简化了计算过程。在此基础上,我们提出了基于MPDIoU的边界框回归损失函数LMPDIoUL。原创 2023-08-24 20:05:37 · 995 阅读 · 1 评论 -
FastViT:一种使用结构重新参数化的快速混合视觉变换器
论文:https://arxiv.org/pdf/2303.14189v1.pdf代码链接:https://github.com/apple/ml-fastvit最近,Transformer和卷积设计的融合使得模型的准确性和效率得到了稳步提高。在这项工作中,我们引入了FastViT,这是一种混合视觉Transformer架构,实现了最新的延迟-准确率权衡。原创 2023-08-21 21:52:24 · 453 阅读 · 0 评论 -
DERT:End-to-End Object Detection with Transformers
本文提出一种新方法,将目标检测视为直接的集合预测问题。该方法简化了检测管道,有效地消除了对许多手工设计组件的需要,如非最大抑制程序或锚点生成,这些组件显式编码了我们关于任务的先验知识。新框架称为检测TRansformer或DETR,其主要成分是基于集合的全局损失,通过二分图匹配强制进行独特的预测,以及TRansformer编码器-解码器架构。给定一个固定的小集合的学习对象查询,DETR对对象和全局图像上下文的关系进行推理,以直接并行输出最终的预测集。原创 2023-08-11 21:30:26 · 2321 阅读 · 0 评论 -
YOLOv5模型压缩方法:综述
目标检测作为一个基本问题,多年来一直是一个活跃的研究领域。目标检测的主要目标是在给定的图像中从不同类别中识别和定位感兴趣的目标。目标检测是许多其他高级计算机视觉任务的基础[1],从语义分割[2]到目标跟踪[3]到活动识别[4]。近年来,基于深度学习的方法如卷积神经网络(cnn)在目标检测任务中取得了最先进的性能。由于计算能力和前沿算法的进步,目标检测变得更加准确,从而实现了广泛的现实世界应用。与经典的目标检测方法相比,使用cnn缓解了目标检测中的特征提取、分类和定位问题[5,6,7,8,9,10]。原创 2023-08-04 06:47:40 · 4059 阅读 · 0 评论 -
EMO:重新思考高效的基于注意力的移动块模型
随着近年来存储/计算受限应用需求的增加,具有更少参数和低FLOPs的移动模型引起了开发人员和研究人员的极大关注。设计高效模型的最早尝试可以追溯到Inceptionv3[55]时代,它使用非对称卷积来取代标准卷积。然后,MobileNet[20]提出了深度可分离卷积,以显著减少计算量和参数,这被视为后续工作中基于cnn的基本组成部分[81,43,48,15]。原创 2023-07-29 21:11:33 · 3669 阅读 · 0 评论 -
MobileViG:基于图的稀疏注意移动视觉应用
人工智能(AI)和机器学习(ML)在过去十年中有了爆炸式的增长。在计算机视觉中,这种增长背后的关键驱动因素是神经网络的重新出现,特别是卷积神经网络(CNN)和最近的视觉Transformer[4,25]。尽管通过反向传播训练的CNN是在20世纪80年代发明的[16,25],但它们被用于更小规模的任务,如字符识别[17]。CNN重塑人工智能领域的潜力直到在ImageNet[32]竞赛中引入AlexNet[15]才完全实现。对CNN架构的进一步改进提高了其准确性、效率和速度[10,12,13,33,34]。原创 2023-07-21 07:09:45 · 420 阅读 · 0 评论 -
更快地分割任何事物:面向移动应用的轻量级Sam
分割任何事物模型(SAM)因其令人印象深刻的零样本迁移性能和对许多视觉应用(如具有细粒度控制的图像编辑)的高通用性而引起了极大的关注。许多此类应用程序需要在资源受限的边缘设备上运行,如手机。本文旨在通过用一个轻量级的图像编码器替换重量级的图像编码器,使SAM对移动设备友好。像最初的SAM论文中那样,用一种天真的方法来训练这样一个新的SAM,会导致不满意的性能,特别是在可用的培训资源有限的情况下。这主要是由图像编码器和掩模解码器的耦合优化引起的,本文提出解耦蒸馏。原创 2023-07-10 20:49:39 · 622 阅读 · 0 评论 -
InceptionNext:当Inception遇到ConvNeXt
回顾深度学习的历史[31],卷积神经网络(Convolutional Neural Networks, cnn)[32,33]无疑是计算机视觉中最流行的模型。在2012年,AlexNet[30]赢得了ImageNet[11,50]比赛,开启了cnn在深度学习,尤其是计算机视觉领域的新时代。原创 2023-06-24 08:09:04 · 1174 阅读 · 1 评论 -
EMA:基于跨空间学习的高效多尺度注意力模块
在各种计算机视觉任务中,通道或空间注意力机制在产生更清晰的特征表示方面的显著有效性得到了证明。然而,通过通道降维来建模跨通道关系可能会给提取深度视觉表示带来副作用。提出了一种新的高效的多尺度注意力(EMA)模块。以保留每个通道上的信息和降低计算开销为目标,将部分通道重塑为批量维度,并将通道维度分组为多个子特征,使空间语义特征在每个特征组中均匀分布。具体来说,除了对全局信息进行编码以重新校准每个并行分支中的通道权重外,还通过跨维度交互进一步聚合两个并行分支的输出特征,以捕获像素级成对关系。原创 2023-06-23 17:21:54 · 12492 阅读 · 0 评论 -
资源有限的大型语言模型的全参数微调
论文链接:https://arxiv.org/pdf/2306.09782v1.pdf大型语言模型(LLM)已经彻底改变了自然语言处理(NLP),但需要大量的GPU资源进行训练。降低LLM的训练门槛将鼓励更多的研究人员参与,使学术界和社会都受益。虽然现有的方法主要集中在参数高效的微调上,即调整或增加少量参数,但很少有人能够在有限的资源下解决调优LLM的全部参数的挑战。在本文中,我们提出了一种新的优化器,低内存优化(LOMO),它将梯度计算和参数更新融合在一起,以减少内存的使用。原创 2023-06-22 17:53:04 · 2051 阅读 · 2 评论 -
QLORA:量化LLMA的有效微调
我们提出了QLORA,这是一种有效的微调方法,它减少了内存使用,足以在单个48GB GPU上微调65B参数模型,同时保留完整的16位微调任务性能。QLORA通过冻结的4位量化预训练语言模型将梯度反向传播到Low RankAdapters (LoRA)中。我们最好的模型家族,我们命名为Guanaco,在Vicuna基准上优于之前所有公开发布的模型,达到ChatGPT性能水平的99.3%,而只需要在单个GPU上进行24小时的微调。原创 2023-06-28 06:12:51 · 2811 阅读 · 0 评论 -
FinGPT:开源金融大型语言模型
论文链接:https://arxiv.org/pdf/2306.06031v1.pdf大型语言模型(llm)已经显示出在不同领域彻底改变自然语言处理任务的潜力,引发了人们对金融的极大兴趣。获取高质量的金融数据是金融LLMs (FinLLMs)的第一个挑战。虽然像BloombergGPT这样的私有模型已经利用了他们独特的数据积累,但这种特权访问需要一种开源的替代方案,以使互联网规模的金融数据大众化。在本文中,我们提出了一个开源的大型语言模型,FinGPT,用于金融部门。原创 2023-06-20 21:02:18 · 1977 阅读 · 2 评论 -
简单可控的音乐生成
论文连接:https://arxiv.org/pdf/2306.05284v1.pdf我们解决了条件音乐生成的任务。我们引入MUSICGEN,这是一个单一的语言模型(LM),它可以在几个压缩的离散音乐表示流(即token)上操作。与之前的工作不同,MUSICGEN由单级变压器LM和有效的Token交错模式组成,这消除了层叠多个模型的需要,例如,分层或上采样。按照这种方法,我们将演示MUSICGEN如何生成高质量的样本,同时以文本描述或旋律特征为条件,从而更好地控制生成的输出。原创 2023-06-20 06:06:41 · 627 阅读 · 0 评论