abrams90
码龄14年
关注
提问 私信
  • 博客:134,185
    134,185
    总访问量
  • 36
    原创
  • 1,749,863
    排名
  • 43
    粉丝
  • 0
    铁粉

个人简介:沉下心来看论文~

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2010-08-20
博客简介:

abrams90的专栏

查看详细资料
个人成就
  • 获得76次点赞
  • 内容获得35次评论
  • 获得333次收藏
创作历程
  • 3篇
    2021年
  • 3篇
    2020年
  • 20篇
    2019年
  • 6篇
    2018年
  • 1篇
    2017年
  • 5篇
    2016年
  • 1篇
    2014年
  • 4篇
    2013年
成就勋章
TA的专栏
  • 深度学习读书笔记
    28篇
  • Faiss
    1篇
  • 机器学习
    28篇
  • 随笔
    1篇
  • 图像处理
    1篇
  • 其他技术
    2篇
  • 数据库
  • python
    2篇
  • TensorRT
    5篇
兴趣领域 设置
  • 人工智能
    opencvcaffetensorflowpytorchnlp集成学习迁移学习分类回归
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Abstract当前Transformer结构已经变成了事实上标准自然语言处理任务,它在计算机视觉的应用还存在限制。在视觉中,注意力机制也用到了与卷积网络的结合,或者用来在保持整体结构不变的情况下替代特定组件。我们注意到这样的依赖性在CNN网络中并不是必须的,单纯对一系列图像块使用transformer也可以去的图像分类任务上很不错的成绩。当在大规模数据上进行预训练,迁移到多个中型或者小型是被benchmark(ImageNet,CIFAR-100,VTAB等)时,Vision Transformer(
原创
发布博客 2021.11.29 ·
1296 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN

Abstract 神经网络使得在像目标检测这样的计算机视觉任务中取得了SOTA的效果。然而,这巨大的成功十分依赖计算资源的消费,这阻碍了使用廉价芯片的用户使用先进的技术。本文我们提出了Cross Stage Partial Network(CSPNet),从网络结构的角度缓解之前的工作依赖大量前向计算的问题。我们将问题归结为网络优化过程中梯度重复的问题。我们提出的方法从网络从始至终的不同阶段通过考虑到梯度变化的特征图整合,在我们的实验中,模型在ImageNet数据集降低了20%的计算量,并...
原创
发布博客 2021.06.28 ·
1087 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

CutMix:Regularization Strategy to Train Strong Classifiers with Localizable Features

CutMix:Regularization Strategy toTrain Strong Classifierswith Localizable FeaturesAbstract区域dropout策略被提出来用于增强神经网络分类器的表现。他们可以引导模型更关注目标共性的部分(腿部而不是头部),使得网络有更好的通用性,有更好的目标定位能力。此外,当前区域dropout将训练样本上通过叠加黑色或者其他噪声块来移除有效信息像素。这种移除并不理想因为它会导致有效信息丢失导致训练效率降低。因此我们提出C..
原创
发布博客 2021.01.12 ·
2248 阅读 ·
2 点赞 ·
0 评论 ·
9 收藏

YOLOv4: Optimal Speed and Accuracy of Object Detection

Abstract有大量的特征认为会改进神经网络(CNN)的准确率。有一种需求是在大规模数据集上进行这些特征的组合验证,并且从理论角度评论结果。有些特征是在特定模型、有些为了解决特定问题,或者只是为了小规模数据集;同时有些特征,例如BN与残差链接模块,对于大多数模型、任务与数据集都有效。我们假设这些有效的特征包括带权重的残差连接(WRC)、跨阶段部分连接(CSP),跨最小Batch正则化(CmBN),自对抗训练(SAT)与Mish-activation。我们使用新的特征:WRC、CSP、CmBN、SAT.
原创
发布博客 2020.12.25 ·
483 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

MMDetection: Open MMLab Detection Toolbox and Benchmark

Abstract: 本文提出了一个包含丰富的目标检测与实力分割算法以及相关组件与模块的目标检测工具箱,称为MMDetection。这个工具箱最开始是作为COCO Challenge2018检测跟踪冠军队伍的codebase。最终这个工具箱演化成了一个包括许多流行的目标检测方法与相关模块的统一平台。它不仅包括训练与推理代码,还提供了超过200种网络模型权重。我们认为这个工具箱是目前最完善的检测工具箱。本文中,我们会介绍这个工具箱的多样化特征。此外,我们还对不同方法、组件以及超参数进行了ben...
原创
发布博客 2020.07.16 ·
2003 阅读 ·
4 点赞 ·
1 评论 ·
12 收藏

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

摘要:现有的视觉表达学习任务中,深度神经网络通常由单个标签的图像训练而来,例如ImageNet。然而单个标签很难描述样本中所有的重要内容,有些有用的视觉信息在训练时可能会浪费掉了。本文中,我们期望利用多标签的图像训练CNNs,从而增强训练出来的CNN模型的表达质量。为了达到目的,我们建立一个包含18M图像,11K类别的大规模多标签样本集,称为Tencent ML-Images。我们高效的利用大...
原创
发布博客 2020.01.15 ·
1203 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

Abstract动态人体骨架为行为识别承载着重要的信息。传统的骨架建模方法通常依赖于手工设计的部件与便利规则,这导致了表达能力的限制与通用性的难题。本文中,我们提出了一种先进的动态骨架模型称为Spatial-Temporal Graph Convolutional Networks(ST-GCN),这种方法通过自适应学习数据的空间与时间模式来解决之前方法的局限性。这种提法不仅带来了更好的表达能...
原创
发布博客 2019.12.05 ·
1080 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS

Abstract 本文提出了一种基于卷积神经网络的可扩展半监督学习方法,该方法可以直接对图进行学习。我们通过图卷积的局部一阶近似来进行卷积结构的选择。我们的模型在图边缘数量上线性扩展,并且学习了编码局部图结构和节点特征的隐层表示。在引用的网络和知识图数据集上的大量实验表明,我们的方法比相关方法有显著的优势。1、Introduction 我们考虑在图(如引用网...
原创
发布博客 2019.12.02 ·
1015 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding

Abstract 我们介绍了一种语言表达模型称为BERT,也就是Transformer的双边编码表示。与当前语言表达模型不同(Peters et al., 2018a; Radford et al., 2018),BERT设计通过考虑所有层左右上下文对为标注过的文本进行深度双边表达的预训练。因此,预训练BERT模型可以通过只增加一个额外的输出层进行finetuned,从而在很多任...
原创
发布博客 2019.11.28 ·
747 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Deep learning for fine-grained image analysis:A survey

Abstract CV是一种机器理解与分析图像的过程,是人工智能的一个重要分支。在CV众多的研究领域中,细粒度图像分析(FGIA)是一个持续基础的工作,是真实世界应用中普遍存在的问题。FGIA的目标是区分视觉目标的子类别,例如,鸟的类别或者车辆的类别。细粒度特性导致的小类内变化与大类间变化使得细粒度分类称为一个具有挑战性的问题。随着深度学习爆炸式的发展,近些年来FGIA利用深度学习技...
原创
发布博客 2019.10.24 ·
1897 阅读 ·
3 点赞 ·
0 评论 ·
9 收藏

Boxy Vehicle Detection in Large Images

Abstract基于相机的目标检测与自动驾驶最近几年整体发展迅速。部分这些改进可以归因于公共数据集,使得全世界的研究者可以利用这些数据进行研究,避免个体队伍花费大量的时间收集与标注数据。当前车辆检测数据集与方法通常专注于解决坐标轴平行的bbox或者语义分割任务。坐标轴平行bbox通常会对车辆大小表示失真并且引入临近的道路内容。语义分割会更加精确,但是他们更难处理与应用在轨迹规划系统中。我...
原创
发布博客 2019.10.17 ·
1254 阅读 ·
2 点赞 ·
1 评论 ·
2 收藏

Faiss home

Faiss是一个用于稠密向量相似度检索与聚类的库。它包含了可以在任意大小(大到可能在RAM中都放不下)特征向量集合中进行检索的算法。它还包含了性能评估与调参的辅助代码。Faiss是用C++编写,并有完成的python接口支持(py2,与py3)。有些有用的算法是在GPU上实现。这个项目是由Facebook AI Research开发的。What is similarty search?...
原创
发布博客 2019.10.14 ·
545 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization

Abstract利用RGB单张图片在真实3D场景进行目标定位由于图像投影过程几何信息的丢失变得相当困难,而这个工作在场景理解中有相当重要的作用。我们提出了通过观察到的2D投影与未观察到的深度维度进行几何推理,用于单目RGB图像三维定位的MonoGRNet算法。MonoGRNet是一个由四个特定子任务网络组成的单一统一的网络结构,四个子任务分别是2D目标检测,实例深度估计(IDE),3D定位与本...
原创
发布博客 2019.08.05 ·
2437 阅读 ·
2 点赞 ·
0 评论 ·
9 收藏

BoxCars:交通监控场景利用3Dbbox进行车辆细粒度分类

BoxCars:Improving Fine-Grained Recognition of Vehicles using 3D Bounding Boxes in Traffic SurveillanceAbstract本文中我们专注于交通应用中的细粒度车辆识别研究。本文提出了一种与当前细粒度识别(自动部件识别,bilinear pooling)发展方向一致的算法。此外,与其它专注于细粒度...
原创
发布博客 2019.07.31 ·
3328 阅读 ·
0 点赞 ·
1 评论 ·
9 收藏

Geometry-constrained Car Recognition Using a 3D Perspective Network

Abstract本文提出了一种从单RGB图片中进行车辆识别的先进学习框架。与现有利用attention机制定位有识别力的2D信息不同,本文的标准框架对2D全局特征与3Dbbox利用互相关与强化学习的方式进行联合表达学习。这两种特征表达通过先进的融合网络进行组合,网络进行车辆类型预测。全局2D特征通过常见的检测网络提取,2Dbbox估计帮助找到ROI。通过Roi的帮助,3DBbox与相应的...
原创
发布博客 2019.07.23 ·
434 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

MobileNetV2:Inverted Residuals and Linear BottleNecks

摘要:本文我们描述了一种新的mobile结构称为MobileNetV2,改进了模型在多个tasks与benchmarks以及不同大小模型的SOTA。我们还描述了一个将这些mobile模型应用在目标检测中的新框架,称为SSDLite。此外,我们还介绍了如何通过改进DeepLabv3构建我们称为DeepLabv3的mobile语义分割模型。网络基于反转残差结构,shortcut位于thin ...
原创
发布博客 2019.07.09 ·
3102 阅读 ·
4 点赞 ·
0 评论 ·
15 收藏

Searching for MobileNetV3

原文链接:https://arxiv.org/pdf/1905.02244.pdf摘要:本文展示了基于互补搜索技术(complementary search)与先进网络结构设计的新一代mobilenet。MobileNetV3通过结合硬件感知网络架构搜索(NAS)和NetAdapt算法,对移动端的cpu进行调优,然后通过新的架构改进对其进行改进。本文一开始探索了如何才能使自动搜索算法...
原创
发布博客 2019.05.14 ·
3085 阅读 ·
2 点赞 ·
0 评论 ·
16 收藏

Learning A Repression Network For Precise Vehicle Search

摘要公共安全领域视频监控数量爆炸性的增长将大规模车辆数据库的检索技术推到风口浪尖。精准车辆检索需要根据输入的查询图片查找出所有目标。车辆检索的难度在于相同视觉特征的车型之间可能十分相似。为了解决这个问题,文章提出了RepNet,一种多任务的网络结构来同时学习每个目标的大体特征与精细特征。此外受益于特征分类的高准确率,提出了一种bucket search方式来减少检索时间,并基本保持准确率...
原创
发布博客 2019.05.13 ·
780 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

YOLOv3:A Incremental Improvement

摘要:我们对YOLO做了更新。我们做了一些列的小设计来优化效果。我们训练了这个新网络。与上次相比网络变大了但准确率更高。但不用担心,速度还是很快。320×320的YOLOv3在与SSD一样28.2mAP时只需22ms,是SSD的三倍快。在YOLOv3上使用原来0.5的IoU阈值检测mAP的效果非常好。算法在TitanX上AP50达到了57.9,速度51ms,RetinaNet则用198m...
原创
发布博客 2019.05.10 ·
332 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Learning a Similarity Metric Discriminatively, with Application to Face Verification

Abstract我们提出了一种通过从数据中进行相似度度量训练的方法。本方法可以用在识别或者认证应用,这些应用中类别很多且训练时未知,并且单个类别的训练数据数量很少。主要的思想是学习一个函数,将输入映射到目标空间中,使得目标空间中的L1距离基本与输入空间中的语义特征一致。这种方法应用到了人脸认证任务中。学习过程最小化具有区分度的损失函数,使得两个来自相同人的人脸相似度度量变小,不同人的人脸...
原创
发布博客 2019.04.26 ·
1526 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏
加载更多