论文阅读
文章平均质量分 92
日常论文阅读
不是吧这都有重名
所有灿烂时刻,最终都将以独行来偿还。
展开
-
[论文精读]VIT:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
虽然Transformer架构已成为自然语言处理任务的标准模型,但它在计算机视觉领域的应用仍然有限。在视觉领域,注意力机制要么与卷积网络结合使用,要么用来替换卷积网络的某些组件,同时保持其总体结构不变。我们的研究表明,这种对CNN的依赖于并非必要的,直接将纯粹的Transformer应用于图像块序列,也可以在图像分类任务上表现得非常好。原创 2024-07-29 19:13:44 · 718 阅读 · 0 评论 -
[技术报告]InternLM2 Technical Report
在本报告中,我们介绍了InternLM2大型语言模型,该模型在主观和客观评估中均表现出色。InternLM2经过超过2万亿高质量预训练语料的训练,涵盖1.8B、7B和20B的模型规模,适用于各种场景。为了更好地支持长上下文,InternLM2采用了GQA以降低推理成本,并且经过了长达32k上下文的额外训练。除了开源模型本身,我们还提供了训练过程中各阶段的检查点,以便未来研究者进行研究。原创 2024-05-24 16:30:08 · 1031 阅读 · 0 评论 -
[论文阅读]FINE-TUNE THE PRETRAINED ATST MODEL FOR SOUND EVENT DETECTION
本研究提出了一种微调预训练模型ATST(音频师生转换模型)的方法,用于声音事件检测(SED)。通过引入ATST-Frame模型,该方法在DCASE挑战任务4数据集上取得了新的SOTA结果,有效解决了预训练模型在声音事件检测中过拟合的问题。提出的方法显著提高了SED性能,并可能适用于其他预训练模型,形成一种新的自监督学习模型训练范式。研究和提出一种微调预训练模型的方法,用于提高SED性能。原创 2024-05-15 17:32:32 · 422 阅读 · 2 评论 -
[论文阅读]A ConvNet for the 2020s
视觉识别的咆哮的20年代开始于ViTs的引入,它很快取代了卷积神经网络,成为最先进的图像分类模型。另一方面,一个原始的ViT在用于一般的比如目标识别和语义分割的计算机视觉任务的时候面临困难。层次Transformer(例如,Swin-Transformer),它重新引入了几个卷积神经网络先验,使Transformer作为通用视觉主干实际上可行,并在各种视觉任务中表现出卓越的性能。然而,这种混合方法的有效性仍然很大程度上归功于Transformer的内在优势,而不是卷积固有的归纳偏差。原创 2023-09-18 22:27:28 · 534 阅读 · 1 评论 -
[论文阅读]YOLOV1:You Only Look Once:Unified, Real-Time Object Detection
我们提出了YOLO,一种新的目标检测方法。之前的目标检测工作重新使用分类器来执行检测。相反,我们将目标检测表述为空间分离的边界框和相关类概率的回归问题。单个神经网络在一次评估中直接从完整图像中预测边界框和类别概率。由于整个检测管道是一个单一的网络,因此可以直接对检测性能进行端到端的优化。我们的统一架构非常快。我们的基础的YOLO模型以每秒45帧的速度实时处理图像。该网络的一个更小版本,Fasr YOLO,每秒处理的图片达到惊人的155帧,同时mAP仍然达到其他实时探测器的两倍。原创 2023-09-23 11:48:33 · 170 阅读 · 0 评论 -
[论文阅读]Coordinate Attention for Efficient Mobile Network Design
最近关于移动网络设计的研究已经证明了通道注意力(例如, the Squeeze-and-Excitation attention)对于提高模型的性能有显著的效果,但它们通常忽略了位置信息,而位置信息对于生成空间选择性注意图非常重要。在本文中,我们提出了一种新的移动网络注意力机制,将位置信息嵌入到通道注意力中,我们称之为“坐标注意力”。与通过二维全局池化将特征张量转换为单个特征向量的通道注意力不同,坐标注意力通过分别沿着两个空间方向聚合特征,将通道注意分解为两个一维特征编码过程。原创 2023-09-13 21:34:42 · 621 阅读 · 0 评论 -
[论文阅读]YOLO9000:Better,Faster,Stronger
我们引入了YOLOv2和YOLO9000实时检测系统。其中YOLOv2是最先进的,比其他检测系统在各种检测数据集上都更快。此外,它可以在各种图像尺寸下运行,以提供速度和精度之间的平滑权衡。YOLO9000是一个实时检测框架,通过对检测和分类的共同优化,可以检测9000多种目标类别。我们使用WordTree结合各种来源的数据和我们的联合优化技术在ImageNet和COCO上同时训练。YOLO9000是缩小检测和分类之间数据集大小差距的有力一步。我们的许多技术推广到目标检测之外。原创 2024-01-07 16:01:02 · 1400 阅读 · 0 评论 -
[论文精读]Masked Autoencoders are scalable Vision Learners
摘要本文证明了掩码自编码器(MAE)是一种可扩展的计算机视觉自监督学习算法。我们的MAE方法很简单:我们盖住输入图像的随机块并重建缺失的像素。它基于两个核心设计。首先,我们开发了一个非对称编码器-解码器架构,其中一个编码器仅对块的可见子集(没有掩码标记)进行操作,以及一个轻量级解码器,该解码器从潜在表示和掩码标记重建原始图像。其次,我们发现如果用比较高的掩盖比例掩盖输入图像,例如75%,这会产生一个重要的和有意义的自我监督任务。这两种设计的结合使我们能够高效地训练大型模型:我们加速了训练(3倍或更多)并提原创 2024-04-18 14:15:02 · 1161 阅读 · 0 评论 -
【论文精读】Bag of Tricks for Image Classification with Convolutional Neural Networks
目标检测的目标是定位图像中对象的边界框。pathB使用步幅为2的1×1卷积,将输入形状转换为pathA的输出形状,因此我们可以对两条路径的输出进行求和,得到下采样块的输出。此外,通过给大批量训练叠加所有的启发式,在1024批大小和FP16条案件下训练的模型相比基线模型在top-1准确率上甚至有轻微的0.5%的提高。这个调整最初是在Inception-v2[26]中提出的,它也可以在其他实现中找,如SENet [12],PSPNet [31],DeepLabV3 [1],和ShuffleNetV2[21]。原创 2024-04-20 00:14:36 · 891 阅读 · 0 评论 -
【论文精读】Attention is all you need
在WMT 2014英法翻译任务中,我们的模型在8个gpu上进行了3.5天的训练,建立了一个新的最先进的单模型,其BLEU分数达到41.0,这只用了文献中最佳模型的训练成本的一小部分。该模型的配置列于表3的最后一行中。已经成为各种任务中的序列模型和转换模型的一个重要的组成部分,允许对依赖关系进行建模,而不考虑它们在输入或输出序列[2,16]中的距离。在WMT 2014年的英法翻译任务中,我们的大模型获得了41.0分的BLEU分数,优于之前发布的所有单个模型,其训练成本不到之前最先进的模型的1/4。原创 2024-04-20 19:26:56 · 1403 阅读 · 0 评论 -
[论文阅读]Visual Attention Network原文翻译
虽然一开始是被设计用于自然语言处理任务的,但是自注意力机制在多个计算机视觉领域掀起了风暴。然而,图像的二维特性给自注意力用于计算机视觉带来了三个挑战。(1)将图像视作一维序列忽视了它们的二维结构;(2)二次复杂度对于高分辨率图像来说太昂贵了;(3)它只捕获了空间适应性而忽略了通道适应性。本文我们提出了一种新颖的被叫做大核注意力(Large Kernel Attention,LKA)的线性注意力使得自注意力中的自适应和长期相关性有效的同时避免其缺点。原创 2023-09-11 20:12:14 · 573 阅读 · 1 评论