关于人工智能的那点论文

人工智能论文

如果有专业名词上的用法错误请见谅。

《Detailed Human Shape Estimation from a Single Image by Hierarchical Mesh Deformation》
https://arxiv.org/abs/1904.10506?context=eess.IV

文摘:提出了一种从单个图像中恢复人体细节形状的新框架。这是一项具有挑战性的任务,由于人类形状、身体姿势和观点等因素的变化。以前的方法通常尝试使用缺乏表面细节的参数化模板来恢复人体形状。因此,由此产生的体型似乎是没有衣服。本文提出了一种新的基于学习的框架,将参数模型的鲁棒性与自由形状三维变形的灵活性相结合。我们使用深度神经网络在分层网格变形(HMD)框架中细化三维形状,利用人体关节、轮廓和逐像素阴影信息的约束。我们能够还原皮肤模型之外的人体细节形状。实验表明,该方法在二维IoU数和三维度量距离方面均优于已有的先进方法,取得了较好的精度。此代码在此https URL中可用

《Invariance Matters: Exemplar Memory for Domain Adaptive Person Re-identification Re-identification》
https://arxiv.org/abs/1904.01990

本文研究了领域自适应人再识别问题:从有标记的源域和无标记的目标域学习一个有标记的人再识别模型。传统的方法主要是减小源域和目标域之间的特征分布差距。然而,这些研究在很大程度上忽略了目标域的域内变化,其中包含了影响目标域测试性能的关键因素。在这项工作中,我们全面研究了目标域的域内变化,并提出了推广的reid模型w.r。t三种基本不变性,即。,样本不变性,相机不变性,邻域不变性。为了实现这一目标,引入了一个范例内存来存储目标域的特性并适应三个不变性属性。内存允许我们在不显著增加计算成本的情况下对全局训练批执行不变性约束。实验表明,这三个不变性和所提的记忆量是有效的域适应系统所不可缺少的。在三个reid域上的结果表明,我们的域自适应精度在很大程度上超过了现有的技术水平。

《Wide & Deep Learning for Recommender Systems》
https://arxiv.org/abs/1606.07792

具有非线性特征变换的广义线性模型被广泛应用于具有稀疏输入的大规模回归和分类问题。通过广泛的跨产品特性转换来记忆特性交互是有效且可解释的,而泛化则需要更多的特性工程工作。在特征工程较少的情况下,通过学习稀疏特征的低维密集嵌入,深度神经网络可以更好地推广到不可见的特征组合。然而,当用户-项目交互是稀疏的、高秩的时,嵌入深度神经网络可能会过度概括和推荐不相关的项目。在这篇论文中,我们提出了宽深度学习——联合训练的宽线性模型和深度神经网络——来结合记忆和泛化对推荐系统的好处。我们在谷歌Play上对系统进行了生产和评估,这是一个拥有超过10亿活跃用户和100多万应用程序的商业移动应用商店。在线实验结果表明,广度和深度模式显著增加了应用程序的购买。我们还在TensorFlow中开源了我们的实现

《Adam: A Method for Stochastic Optimization》
https://arxiv.org/abs/1412.6980v8

介绍了一种基于低阶矩自适应估计的随机目标函数一阶梯度优化算法Adam。该方法易于实现,计算效率高,内存需求小,对梯度的对角重新标度不变,并且非常适合于数据和/或参数很大的问题。该方法也适用于非平稳目标和具有非常嘈杂和/或稀疏梯度的问题。超参数有直观的解释,通常不需要太多的调优。讨论了一些与相关算法的联系,亚当就是在这些算法上受到启发的。分析了该算法的理论收敛性,给出了与在线凸优化框架下最优解收敛速度相当的遗憾界。实验结果表明,该方法在实际应用中效果良好,与其他随机优化方法相比具有一定的优越性。最后,我们讨论亚当,亚当的一个变种基于无限范数。

《 Xception: Deep Learning with Depthwise Separable Convolutions》
https://arxiv.org/abs/1610.02357

我们将卷积神经网络中的先启模块解释为正则卷积和深度可分离卷积操作(深度卷积之后是点卷积)之间的中间步骤。从这个意义上讲,深度可分离卷积可以理解为一个具有最大数量塔的先启模块。基于此,我们提出了一种新颖的深度卷积神经网络结构,该结构受到Inception的启发,先启模块被深度可分卷积所取代。我们展示了这个被称为Xception的架构,它在ImageNet数据集上稍微优于Inception V3 (Inception V3是为ImageNet数据集设计的),并且在包含3.5亿张图像和17,000个类的更大的图像分类数据集上显著优于Inception V3。由于Xception体系结构具有与Inception V3相同的参数数量,所以性能的提高不是由于容量的增加,而是由于更有效地使用了模型参数。

《Deep Residual Learning for Image Recognition》
https://arxiv.org/abs/1512.03385

更深层次的神经网络更难训练。我们提出了一个残差学习框架来简化网络的训练,这些网络比以前使用的网络要深入得多。我们显式地将层重新表示为参考层输入的学习剩余函数,而不是学习未引用的函数。我们提供了全面的经验证据表明,这些剩余网络更容易优化,并可以从大幅增加的深度获得精度。在ImageNet数据集上,我们评估了多达152层的剩余网—比VGG网深8倍,但仍然具有较低的复杂性。这些残差网的集合在ImageNet测试集上的误差达到3.57%,该结果在ILSVRC 2015年分类任务中获得第一名。我们还对CIFAR-10进行了100层和1000层的分析。
在许多视觉识别任务中,表征的深度是至关重要的。仅仅由于我们的深度表示,我们获得了28%的相对改进的COCO对象检测数据集。深度残差网是我们在ILSVRC & COCO 2015竞赛中提交作品的基础,我们在ImageNet检测、ImageNet定位、COCO检测、COCO分割等任务中获得第一名。

《Multi-Scale Context Aggregation by Dilated Convolutions》
https://arxiv.org/abs/1511.07122v3

最先进的语义分割模型是基于卷积网络的自适应,而卷积网络最初是为图像分类而设计的。然而,密集预测和图像分类在结构上是不同的。在这项工作中,我们开发了一个新的卷积网络模块,专门为密集预测设计。该模块采用扩展卷积,在不丢失分辨率的前提下,系统地聚合多尺度上下文信息。该架构基于这样一个事实,即膨胀的卷积支持接收域的指数级扩展,而不会丢失分辨率或覆盖率。结果表明,提出的上下文模块提高了目前最先进的语义分割系统的精度。此外,我们研究了图像分类网络对密集预测的适应性,并证明简化自适应网络可以提高精度。

《Densely Connected Convolutional Networks》
https://arxiv.org/abs/1608.06993

最近的研究表明,如果卷积网络包含接近输入层和接近输出层之间较短的连接,那么训练卷积网络将会更加深入、准确和有效。在本文中,我们接受了这一观察,并引入了稠密卷积网络(DenseNet),它以前馈的方式将每一层连接到每一层。传统的卷积网络有L层,每层和它的下一层之间有L个连接,而我们的网络有L(L+1)/2个直接连接。对于每一层,前面所有层的特征映射都用作输入,而它自己的特征映射用作后面所有层的输入。densenet有几个引人注目的优点:它们缓解了消失梯度问题,增强了特性传播,鼓励特性重用,并大大减少了参数的数量。我们在四个高度竞争的对象识别基准任务(CIFAR-10、CIFAR-100、SVHN和ImageNet)上评估了我们提出的体系结构。DenseNets在大多数方面都比最先进的技术取得了显著的改进,同时需要更少的计算来实现高性能。

《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 》
https://arxiv.org/abs/1905.11946

卷积神经网络(ConvNets)通常是在固定的资源预算下开发的,如果有更多的资源可用,则会进行扩展以获得更高的精度。在本文中,我们系统地研究了模型缩放,并发现仔细平衡网络的深度、宽度和分辨率可以获得更好的性能。在此基础上,我们提出了一种新的标度方法,该方法使用一个简单而高效的复合系数来均匀地标度深度/宽度/分辨率的所有维度。我们证明了该方法在扩展mobilenet和ResNet方面的有效性。
为了更进一步,我们使用神经结构搜索设计了一个新的基线网络,并将其扩展,以获得一系列被称为efficient entnets的模型,这些模型比以前的ConvNets具有更好的准确性和效率。特别是,我们的streamlined - b7在ImageNet上实现了最先进的84.4%的top-1 / 97.1%的top-5精度,同时比现有最好的ConvNet小8.4倍,推理速度快6.1倍。在CIFAR-100(91.7%)、Flowers(98.8%)和其他3个传输学习数据集上,我们的高效网络传输效果也很好,并且达到了最先进的精度,参数少了一个数量级。

《Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization》
https://arxiv.org/abs/1610.02391

我们提出了一种技术,可以从大量基于cnn的模型中生成决策的“可视化解释”,使它们更加透明。我们的方法——梯度加权类激活映射(Gradient-weighted Class Activation Mapping, grade - cam),使用任何目标概念的梯度,流入最终的卷积层,生成一个粗定位图,突出显示图像中用于预测概念的重要区域。和以前的方法不同,GradCAM适用于各种各样的CNN model-families: (1) CNN与全层(例如VGG), (2) CNN用于结构化输出(如字幕),(3)CNN与多通道输入任务使用(例如VQA)或强化学习,没有任何架构更改或重新训练。我们将GradCAM与细粒度可视化相结合,以创建高分辨率的类区分可视化,并将其应用于现成的图像分类、标题和可视化问题回答(VQA)模型,包括基于resnet的体系结构。图像分类模型的上下文中,我们的可视化(a)提供洞察他们的失效模式(显示,看似不合理的预测有合理的解释),(b)是健壮的敌对的图片,©比先前的方法weakly-supervised本地化,(d)更忠实于底层模型和(e)帮助实现泛化通过确定数据集的偏见。对于字幕和VQA,我们的可视化显示,即使是非基于注意力的模型也可以本地化输入。最后,我们进行了人类研究,以衡量GradCAM解释是否有助于用户建立对深层网络预测的信任,并表明GradCAM帮助未经训练的用户成功地区分出“较强”的深层网络和“较弱”的网络。我们的代码在这个https URL中可用。

《Do Better ImageNet Models Transfer Better?》
https://arxiv.org/abs/1805.08974

转移学习是计算机视觉的基石,但还没有做过一些工作来评估建筑与转移之间的关系。在现代计算机视觉研究中,一个隐含的假设是,在图像上表现得更好的模型必然在其他视觉任务上表现得更好。然而,这个假设从未被系统地测试过。在这里,我们比较了16个分类网络在12个图像分类数据集上的性能。我们发现,当网络被用作固定特征提取器或精细调整时,图像精度与转移精度之间存在很强的相关性(r = 0.99和0.96)。在之前的设置中,我们发现这种关系对网络在图像上的训练方式非常敏感;许多常见的正则化形式稍微提高了图像的准确性,但产生了最终的层特征,这对转移学习更糟糕。此外,我们发现,在两个小的细粒度的图像分类数据中,对ImageNet的预训练提供了最小的好处,这表明ImageNet的学习特性不适合细粒度的任务。我们的结果显示,ImageNet架构在数据集中很好地推广,但是ImageNet特性比之前建议的要少。

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 》
https://arxiv.org/abs/1502.03167

由于训练过程中各层输入的分布随前一层参数的变化而变化,使得训练深度神经网络变得复杂。这降低了训练的速度,因为需要更低的学习速度和更仔细的参数初始化,并且使得用饱和非线性来训练模型变得非常困难。我们将这种现象称为内部协变量移位,并通过规范化层输入来解决这个问题。我们的方法将规范化作为模型体系结构的一部分,并对每个训练小批执行规范化,从而获得了它的优势。批处理规范化允许我们使用更高的学习率,并且在初始化方面不那么小心。它还作为一个正则化器,在某些情况下消除了辍学的需要。应用于最先进的图像分类模型,批处理归一化以14倍的训练步骤达到了同样的精度,并大大超过了原始模型。使用一组批处理归一化网络,我们对ImageNet分类的最佳发表结果进行了改进:达到4.9%的前5名验证错误(和4.8%的测试错误),超过了人类评分者的准确度。

《Instance Normalization: The Missing Ingredient for Fast Stylization》
https://arxiv.org/abs/1607.08022

本文对乌里扬诺夫等人(2016)引入的快速风格化方法进行了回顾。我们展示了风格化体系结构中的一个小变化如何导致生成的图像在质量上有显著的改进。更改仅限于将批处理规范化与实例规范化交换,并在培训和测试时应用实例规范化。该方法可用于训练高性能的实时图像生成体系结构。

《Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models 》
https://arxiv.org/abs/1702.03275

批处理规范化对于加快和改进深度模型的训练是非常有效的。然而,当训练的小批量很小,或者不包含独立样本时,其有效性就会降低。我们假设这是由于模型层的输入依赖于所有的示例,并且在训练和推理之间产生了不同的激活。我们提出了批量重整,这是一种简单而有效的扩展,以确保训练和推理模型生成相同的输出,这些输出依赖于单个示例,而不是整个小批量。当采用小批量或非i.i.d进行训练时,经过批量重整训练的模型的性能明显优于成批模型。minibatches。同时,批处理重整保留了批处理规范的优点,如对初始化不敏感和训练效率不高。

《Group Normalization 》
https://arxiv.org/abs/1803.08494

批处理标准化(BN)是深度学习发展中的一个里程碑式的技术,它使各种网络能够进行训练。然而,沿着批次尺寸进行归一化会带来一些问题——当批次尺寸变小时,BN的误差会迅速增大,这是由于批次统计估计不准确造成的。这限制了BN用于训练更大的模型和将特征转移到计算机视觉任务(包括检测、分割和视频),这些任务需要小批量的内存消耗。本文将群归一化(GN)作为BN的一个简单替代。GN将信道划分为组,并在每组中计算均值和方差进行归一化。GN的计算不依赖于批量大小,在大范围的批量大小下,其精度是稳定的。在ImageNet训练的ResNet-50上,当使用批大小为2时,GN的误差比BN低10.6%;当使用典型的批大小时,GN与BN相当好,并且优于其他标准化变体。此外,GN可以很自然地从预培训过渡到微调。在COCO中的目标检测和分割,以及动力学中的视频分类等方面,GN都优于基于bnb的算法,说明GN可以有效地替代强大的BN在各种任务中。在现代库中,只需几行代码就可以很容易地实现GN。

《Differentiable Learning-to-Normalize via Switchable Normalization》
https://arxiv.org/abs/1806.10779

提出了一种可切换归一化方法(SN),该方法学习为深度神经网络的不同归一化层选择不同的归一化器。SN使用三个不同的范围来计算统计信息(平均值和方差),包括通道、层和小批处理。SN通过以端到端方式学习它们的重要性权重来在它们之间进行切换。它有几个好特性。首先,它适应各种网络架构和任务(见图1)。其次,它对各种批处理大小都很健壮,即使是小批处理(例如2张图像/GPU)也能保持高性能。第三,SN没有敏感的超参数,不像组规范化那样将组的数量作为超参数进行搜索。在没有任何附加功能的情况下,SN在各种具有挑战性的基准测试(如ImageNet、COCO、CityScapes、ADE20K和Kinetics)上的表现都超过了它的同行。并对锡进行了分析。我们希望SN能够帮助我们在深度学习中简化使用和理解标准化技术。

《Dynamic Routing Between Capsules 》
https://arxiv.org/abs/1710.09829

胶囊是一组神经元,其活动向量表示特定类型实体(如对象或对象部件)的实例化参数。我们使用活动向量的长度表示实体存在的概率,并使用其方向表示实例化参数。某个级别的活动胶囊通过转换矩阵预测更高级别胶囊的实例化参数。当多个预测一致时,一个更高水平的胶囊就会活跃起来。我们证明了一个经过区别训练的多层胶囊系统在MNIST上达到了最先进的性能,并且在识别高度重叠的数字方面比卷积网络要好得多。为了实现这些结果,我们使用了一种迭代的协议路由机制:较低级别的胶囊更喜欢将其输出发送到较高级别的胶囊,其活动向量具有较大的标量积,预测来自较低级别的胶囊。

《Matrix capsules with EM routing》
https://openreview.net/forum?id=HJWLfGWRb

胶囊是一组神经元,它们的输出代表同一实体的不同属性。胶囊网络中的每一层都包含许多胶囊。我们描述了胶囊的一个版本,其中每个胶囊都有一个逻辑单元来表示一个实体的存在,以及一个4x4矩阵,该矩阵可以学习表示实体和观察者之间的关系(姿势)。一层中的一个胶囊通过将其自身的姿态矩阵乘以可训练的视点不变变换矩阵来为上面一层中许多不同胶囊的姿态矩阵投票,该变换矩阵可以学习表示部分-整体关系。每一票都由分配系数加权。使用期望最大化算法对每个图像迭代更新这些系数,以便将每个胶囊的输出路由到上面一层的一个胶囊,该胶囊接收到一组类似的投票。通过在每对相邻的包膜层之间通过EM展开迭代进行反向传播,对转换矩阵进行有区别的训练。在smallNORB基准测试中,与最先进的测试方法相比,capsule减少了45%的测试错误。与我们的基本卷积神经网络相比,胶囊对白盒对抗攻击的抵抗力要大得多。

《Information Aggregation via Dynamic Routing for Sequence Encoding》
https://arxiv.org/abs/1806.01501

虽然在如何将文本序列编码为向量序列方面已经取得了很大的进展,但是对于如何将这些前面的向量(RNN/CNN的输出)聚合为固定大小的编码向量的研究却很少。通常使用简单的max或average池,这是一种自底向上的被动聚合方式,缺乏任务信息的指导。在本文中,我们提出一种聚合机制来获得具有动态路由策略的固定大小编码。动态路由策略动态地决定需要将哪些信息和多少信息从每个单词传输到文本序列的最终编码。在胶囊网络工作的基础上,设计了两种动态路由策略,将RNN/CNN编码层的输出聚合成最终的编码向量。与其他聚合方法相比,动态路由可以根据最终编码向量的状态对消息进行细化。在五个文本分类任务上的实验结果表明,我们的方法明显优于其他的聚合模型。

《Convolutional Neural Networks for Sentence Classification》
https://arxiv.org/abs/1408.5882

我们报道了在预处理的词向量上训练卷积神经网络(CNN)进行句子级分类任务的一系列实验。我们证明了一个简单的CNN与小超参数调谐和静态向量在多个基准上取得了很好的效果。通过微调学习特定于任务的向量可以进一步提高性能。此外,我们还建议对体系结构进行简单的修改,以便同时使用特定于任务的向量和静态向量。本文所讨论的CNN模型在7项任务中有4项是在现有的基础上改进的,包括情绪分析和问题分类。

《Feature Pyramid Networks for Object Detection》
https://arxiv.org/abs/1612.03144

特征金字塔是不同尺度目标识别系统的基本组成部分。但最近的深度学习对象检测器已经避免了金字塔表示,部分原因是它们需要大量的计算和内存。本文利用深卷积网络固有的多尺度金字塔结构构造了具有边际额外成本的特征金字塔。提出了一种具有横向连接的自顶向下体系结构,用于在所有尺度上构建高级语义特征图。该体系结构称为特征金字塔网络(FPN),作为一种通用的特征提取器,它在几个应用程序中得到了显著的改进。在一个基本的更快的R-CNN系统中使用FPN,我们的方法在COCO检测基准上实现了最先进的单模型结果,没有任何附加条件,超过了所有现有的单模型条目,包括来自COCO 2016挑战赛冠军的条目。此外,我们的方法可以在GPU上以每秒5帧的速度运行,因此是一种实用而准确的多尺度目标检测解决方案。代码将公开提供。

《Mask R-CNN》
https://arxiv.org/abs/1703.06870

我们提出了一个概念简单、灵活和通用的对象实例分割框架。我们的方法有效地检测图像中的对象,同时为每个实例生成高质量的分割掩码。该方法称为Mask R-CNN,通过添加一个分支来预测一个对象掩码,与现有的用于边界框识别的分支并行,从而扩展了更快的R-CNN。蒙版R-CNN训练简单,只增加了一个小开销到更快的R-CNN,运行在5帧每秒。此外,蒙版R-CNN很容易推广到其他任务,例如,允许我们在相同的框架下估计人类的姿态。我们展示了COCO套件中所有三个方面的顶级结果,包括实例分割、边界框对象检测和人员关键点检测。没有铃声和哨声,Mask R-CNN在每个任务上都比所有现有的单模型条目表现得更好,包括COCO 2016挑战赛冠军。我们希望我们的简单而有效的方法将作为一个坚实的基线,并有助于简化未来在实例级识别方面的研究。

《 YOLOv3: An Incremental Improvement 》
https://arxiv.org/abs/1804.02767

我们向YOLO提供了一些更新!我们做了一些设计上的小改动使它变得更好。我们还培训了这个非常棒的新网络。它比上次大了一点,但是更准确。不过还是很快,别担心。在320x320 YOLOv3运行在22毫秒在28.2地图,准确的SSD,但三倍的速度。当我们看旧的。5 IOU地图检测指标YOLOv3是相当不错的。与RetinaNet的57.5 mAP@50 / 198 ms相比,在Titan X上,它在51 ms内实现了57.9 mAP@50,性能类似,但速度快3.8倍。

《Quasi-Recurrent Neural Networks》
https://arxiv.org/abs/1611.01576

递归神经网络是对序列数据建模的有力工具,但是每个时间步的计算依赖于前一个时间步的输出限制了并行性,使得RNNs对于很长的序列非常笨拙。我们介绍了准递归神经网络(QRNNs),这是一种交替使用卷积层的神经序列建模方法,它可以跨时间步并行应用,以及一个最小递归池函数,可以跨通道并行应用。尽管缺乏可训练的递归层,但叠置qrns比相同隐藏大小的叠置LSTMs具有更好的预测精度。由于增加了并行性,它们在火车和测试时的速度可提高16倍。在语言建模、情感分类和字符级神经机器翻译方面的实验证明了这些优势,并强调了QRNNs作为各种序列任务的基本构件的可行性。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值