Maples丶丶-CSDN博客

原创论文阅读：《Rethinking Pseudo-LiDAR Representation》

该论文是商汤2020年发表在ECCV上的一篇论文。2018年的CVPR论文《Pseudo-LiDAR From Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving》使用视觉伪点云来进行单目3D目标检测，获得了大幅性能提升，并将性能提升归因为数据表达形式。商汤在该论文中提出了不一样的观点。

2022-03-27 21:26:57 5755 2

原创论文阅读：《Bridging the Gap in 3D Object Detection for Autonomous Driving》

该论文是康奈尔大学2018年在CVPR发表的一篇论文，时间虽然有点久远，但算得上单目3D检测中“视觉伪点云流派”的开山鼻祖了，是篇值得一读的经典论文。论文链接: https://arxiv.org/abs/1812.07179论文源码: https://github.com/mileya

2022-03-26 22:01:47 5545

原创论文翻译：《DN-DETR: Accelerate DETR Training by Introducing Query DeNoising》

该论文已被CVPR2022接收，作者团队由香港科技大学、IDEA、清华大学组成。但论文源码暂未公开，只提供了一个Github主页。论文链接：https://arxiv.org/abs/2203.01305官方代码：https://github.com/FengLi-ust/DN-DETR官方解读：https://www.zhihu.com/question/517340666/answer/23813043991. Abstract 我们在这篇论文中提出了一种全新的降噪训练方法来加

2022-03-20 21:54:25 5553

原创论文阅读：《PETR: Position Embedding Transformation for Multi-View 3D Object Detection》

这篇论文对应NuScenes纯视觉榜三方法PETR，旷视科技于2022年3月上传至arXiv。PETR是DETR3D的改进，在没有外部训练数据的情况下，性能已经优于DETR3D。

2022-03-19 14:46:15 15173 4

原创 MMDetection框架入门教程（完全版）

网上MMDetection的教程看似有很多，但感觉都不成系统，看完一圈下来还是不知道MMDetection要怎么用。这里还是推荐直接跟着官方教程，结合源码学习MMDetection，相关链接汇总如下：官方教程 - MMCV官方教程 - MMDetection官方教程 - 不得不知的 MMDetection 学习路线(个人经验版)西安交大课件 - mmdetection教程(使用篇) 本文会介绍如何在MMDetection中从头开始搭建一套属于自己的算法。前几篇博客算是本人学习过...

2021-11-14 23:27:12 77241 26

原创 MMDetection框架入门教程（五）：Runner和Hook详细解析

上一篇博客对配置文件进行了详细介绍，本篇博客将对MMDetection中的Hook机制进行介绍。本文主要是对下面内容的总结和梳理。知乎 - 轻松掌握MMDetection整体构建流程(二)知乎 - MMCV核心组件分析(六)：Hook知乎 - 目标检测(MMDetection)-HOOK机制B站 - OpenMMLab开源工具使用教学(一)1. 什么是Hook MMDetection对网络模型、训练流程、测试流程都进行了高度封装，用户只能通过配置文件干预框架内部的运行流程。...

2021-11-10 23:08:35 9894 4

原创 MMDetection框架入门教程（四）：注册机制详解

上一篇博客对MMDetection中的配置文件进行了介绍，其中提到，我们在配置文件中配置到模型、数据集、训练策略等后，通过Config类可以将配置文件中的参数信息以字典的形式进行管理，然后MMDetection框架就会对其自动进行解析，帮助我们构建整个算法流程。MMDetection使用注册机制来实现从配置参数到算法模块的构建。本篇博客将从源码出发，对MMCV中的注册机制进行详细介绍。官方文档 - MMCV官方知乎 - MMCV 核心组件分析(五): Registry1. 注册器...

2021-11-09 01:12:43 5797 11

原创 MMDetection框架入门教程（三）：配置文件详细解析

在上一篇博客中提到，MMDetection搭建训练算法只需要3个步骤：1) 准备数据集 2) 编写配置文件 3) 执行train.py文件开始训练。但上篇博客只是很简略的介绍了一下大体流程，本文将从源码角度剖析配置文件构建机制，主要参考的是官方说明文档（不得不说网上那么多教程，最终发现最好的还是官方文档）。官方说明文档 - MMCV官方说明文档 - MMDetection知乎官方 - MMCV核心组件分析(四)：Config1. 文件结构 MMDetection已经实现的配置...

2021-11-07 17:37:23 10315 3

原创 nuScenes 3D目标检测数据集解析（完整版附python代码）

NuScenes 3D目标检测数据集解析最近在用NuScenes 3D目标检测数据集，可能由于官方提供了解析工具包nuscenes-devkit，绝大多数博客只介绍了如何使用工具包进行数据解析和可视化，对于数据解析的内部逻辑就不是很关注了。我本来是想搜寻一下nuScenes内部如何进行坐标系转换的，但无奈大家都只点到为止，这里只好自己根据源码进行整理。本文内容基本都来自官网以及官方工具包源码的梳理总结，nuScenes论文本身没有什么干货，就是吹了一下这个数据集有多厉害。[官网] NuSc

2021-11-02 00:59:39 22298 53

原创 MMDetection框架入门教程（二）：快速上手教程

MMDetection框架入门（二）：整体构建流程本博客基于以下文档和链接内容整理，大家有兴趣可以看看原文。轻松掌握 MMDetection 整体构建流程(一)轻松掌握 MMDetection 整体构建流程(二)1. 算法组件 MMDetection是一个深度学习开源框架，主要是为了解决当前目标检测算法比较复杂，细节比较多，难以复现的问题。目前 MMDetection 已经复现了大部分主流和前沿模型，例如 Faster R-CNN 系列、Mask R-CNN 系列、YOLO

2021-10-24 13:23:43 26733 13

原创 MMDetection框架入门教程（一）：Anaconda3下的安装教程（mmdet+mmdet3d）

MMDetection/3D框架入门（一）：Anaconda3下的安装教程本博客基于下列文档整理得到，有兴趣的同学可以直接阅读原文。GitHub - MMDetectionGitHub - MMCVGitHub - MmDetection3D官方说明文档 - MMDetection官方说明文档 - MMDetection3DStep1: Anaconda虚拟环境搭建打开Anaconda Prompt，创建一个新的虚拟环境：conda create -n mmdetla

2021-10-24 00:35:48 21425 13

原创论文翻译：《DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries》

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries 这篇论文的四个作者分别来自麻省理工学院、丰田研究院、卡耐基梅隆大学、理想汽车，最近被CORL 2021接收。论文链接：https://export.arxiv.org/abs/2110.06922官方开源代码：https://github.com/WangYueFt/detr3dAbstract 我们介绍了一种用于多相机3D目标检测的框架。现

2021-10-19 23:59:58 6134 6

原创《An Image is Worth 16x16 Words》完整版翻译

Abstract 虽然Transformer结构已经成为NLP领域的标准，但在计算机视觉领域的应用还非常有限。在视觉领域，注意力要么是结合卷积网络来使用，要么是用于替换卷积网络的某些组件，同时保持整体结构不变。我们将证明，在图像分类任务上，对于CNN的依赖不是必要的，直接将Transformer应用到图像块序列上也可以有非常好的性能。当ViT在大型数据集上进行预训练，并迁移到中小型图像识别数据集（ImageNet、CIFAR-100，VTAB等）上时，性能大幅超过现SOTA的卷积网络，并且可以大幅降低训

2021-10-14 01:00:03 9738 6

原创 KITTI 3D目标检测数据集解析（完整版）

KITTI官网Vision meets Robotics: The KITTI Dataset1. KITTI数据集概述1.1 传感器配置由于彩色相机成像过程中的拜耳阵列(Bayer Pattern)插值处理过程，彩色图像分辨率较低，而且对于光照敏感性不高，所以采集车配备了两组双目相机，一组灰度的，一组彩色的。个人猜测为了增加相机的水平视场角，每个相机镜头前又各安装了一个光学镜头。传感器类型详细信息灰度相机 2台140像素的PointGray..

2021-07-24 20:32:24 28869 14

原创鱼眼镜头的成像原理到畸变矫正（完整版）

最近刚接触鱼眼相机，发现网上资料还是比较零散的，于是把搜罗到的资料汇总梳理了一下（我不生产知识，我只是知识的搬运工耶嘿）。摄影入门之相机镜头的分类鱼眼镜头是怎么「鱼眼」的？1. 什么是鱼眼镜头1.1 镜头分类镜头类型特征描述变焦镜头在一定范围内可以变换焦距、从而得到不同宽窄的视场角，不同大小的影象和不同景物范围的照相机镜头。定焦镜头标准镜头视角在40°~45°之间，焦距长度与底片对角线长度基本相等。

2021-01-14 22:03:24 50266 56

原创 Characterizing and Improving Stability in Neural Style Transfer

这篇论文是斯坦福大学发表在CVPR 2017上的论文，主要内容是如何保持视频的风格化的稳定性。原文链接：https://arxiv.org/abs/1705.02092摘要最近图像风格转换的研究主要关注合成图像质量和算法速度的提升。但是实时的方法非常不稳定，应用到视频时会有明显的闪烁。本文中，我们通过检验风格迁移目标方程的解集来对这些方法的不稳定性进行了描述。结果表明，Gram...

2018-12-20 14:13:39 835

原创 Large scale GAN training for high fidelity natural image synthesis

这篇论文是Heriot-Watt大学和Google DeepMind向ICLR 2019提交的一篇论文，最近的讨论热度非常高，公众号各种推送，这里博主也来细读学习一下。同门粗看了一下，据说文中有很多晦涩的地方，还是老老实实先翻译一遍吧=-=。原文链接：https://arxiv.org/abs/1809.11096?context=cs.LG摘要尽管最近在生成图像建模方面取得了...

2018-12-11 17:23:29 1148

原创 Colorful Image Colorization

这篇论文是加里福利亚大学Richard Zhang发表在ECCV 2016上的文章，论文的工作是灰度图的自动着色，这里博主想要重点关注一下论文对颜色分布预测的工作，所以把一篇这么老的论文翻出来重新看。论文主页：http://richzhang.github.io/colorization/，东西比较全，论文，github，在线demo都有1. 论文贡献用论文作者自己的话说，论文...

2018-11-09 10:55:05 12359 3

原创蒙特卡洛树搜索（新手教程）

本篇博客为《Monte Carlo Tree Search – beginners guide》的翻译，水平有限，有兴趣的朋友可以直接阅读原文。很长一段时间以来，学术界普遍认为，机器在围棋领域达到人类大师的专业等级是不现实的。这被视为AI的一个“圣杯”，至少是在未来十年中仍难以抵达的一个里程碑。20年多前，Deep Blue在国际象棋中击败了国际象棋世界冠军Garry Kasparov...

2018-11-01 20:44:47 57410 11

原创位运算在算法中的应用小结

最近在刷LeetCode，接触到不少靠位运算提升算法效率的题目，这里刚好看到一篇关于位运算的总结，个人觉得挺完善的，这里翻译一下分享给大家，同时感谢一下LHearen大佬对位运算进行了详尽的总结。博客中统一用Python语言解释。原文地址：https://leetcode.com/problems/sum-of-two-integers/discuss/84278/A-summary:-h...

2018-09-25 13:57:01 7850 3

原创 Deep Context-Aware Descreening and Rescreening of Halftone Images

　　这篇论文是Intel公司在SIGGRAPH 2018发表的论文，主要讲的是用深度学习来进行半色调（Halftoning）和逆半色调（Inverse Halfoning）。原文链接：https://dl.acm.org/citation.cfm?id=32013771. 论文贡献　　直接借用论文中作者的话：提出了一种基于深度学习的Descreening（去网）方法。...

2018-09-17 19:03:40 1034 2

原创最大熵模型原理小结

　　最大熵模型（Maximum Entropy Model）是一种很经典的分类算法，理解它有助于加深我们对逻辑回归、支持向量机、决策树等算法的理解。最大熵模型是将最大熵原理应用到分类任务得到的模型。在解释最大熵原理和最大熵模型之前，先简单对熵的概念进行一下回顾。1. 熵　　信息论的基本想法是发生一个不太可能发生的事件比发生一个非常可能发生的事件能提供更多的信息。比如说，“今天早上太阳升起”...

2018-09-10 14:45:43 5256

原创 LDA原理小结

　　线性判别分析（Linear Discrimination Analysis，LDA）是一种经典的线性学习方法。它既可以用于分类，又可以作为一种降维方法。1. LDA的基本思想　　LDA基本思想比较简单：给定带有标签的训练样本集，设法将样本投影到一条直线上，使得同类样本的投影点尽可能近，异类样本的投影点尽可能远。如果是进行分类，将新样本投影到同样的这条直线上，根据投影点的位置来确定新样本...

2018-09-05 12:48:22 13110 2

原创 PCA原理小结

　　主成分分析（Principal Component Analysis，PCA）是最常用的一种数据降维方法。顾名思义，PCA就是找出原始数据中最主要的方面来表示原始数据，可以获得比原始输入维度更低的表示。具体来说，假设原始数据X={x(1),x(2),…,x(m)}X={x(1),x(2),…,x(m)}X=\{x^{(1)},x^{(2)},\dots,x^{(m)}\}，x(i)x(i)x^...

2018-08-29 11:03:25 3338 1

原创支持向量机原理小结（3）——核方法和非线性支持向量机

　　前面两篇博客对线性支持向量机进行了详细的讲解，但线性SVM对于非线性的数据是无可奈何的。这篇博客将讲一下非线性支持向量机。1. 核方法　　对SVM有过一定耳闻的人，一定听说过“核技巧”、“核方法”这些名词，其实核方法并不是只能应用于SVM，还可以应用于其他地方。现在就来讲讲核方法是如何处理非线性数据的。　　假设给定如下数据（上面左图），显然我们没法用一条直线将′∘′′∘′'\c...

2018-08-21 13:52:36 3558

原创支持向量机原理小结（2）——线性可分支持向量机和软间隔最大化

　　在上一篇博客《线性可分支持向量机和软间隔最大化》中对严格线性可分的SVM进行了推导，最后提到了线性可分支持向量机对于非线性的数据集也是没有办法使用的，这是因为有时候少量异常点引入了非线性，本篇博客就来讲讲如何应对这些异常点。硬间隔最大化存在的问题　　所谓“硬间隔”，就是不允许样本点出现在两条间隔边界（下图中虚线）之间，在不考虑对输入数据进行其他特征映射的条件下，只有严格可分的线性数据集...

2018-08-20 13:03:08 719

原创支持向量机原理小结（1）——线性可分支持向量机和硬间隔最大化

　　支持向量机（SVM）是一种二分类模型，它的思想和感知机很相似，也是在空间中找到一个超平面将正负样本点分开，也可以说SVM是在感知机基础上发展来的。所以在讲完感知机之后马上开始讲支持向量机。1. 从感知机到支持向量机　　感知机和支持向量机都是期望从空间中找到一个合适的分离超平面将两类数据正确分开。一般地，当训练数据集线性可分时，这样的超平面有无数多个。感知机利用所有误分类点到超平面总距离...

2018-08-18 22:27:44 1655

原创感知机原理小结

　　感知机由Rosenblatt于1957年提出，是神经网络和支持向量机的基础。这里先简单介绍一下什么是感知机。本篇博客为《统计学方法》第二章和博客《感知机原理小结》的总结。感知机模型　　感知机是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，分别取+1+1+1和−1−1-1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。这还是很...

2018-08-18 00:43:05 2455

原创字符串模式匹配KMP算法详解（Python语言）

问题描述　　主串为′ababcabcacbab′′ababcabcacbab′'ababcabcacbab'，模式串为′abcac′′abcac′'abcac'，现在要求模式串在主串中出现的位置。暴力解法　　直接用两层for循环，从主串的第一个位置和模式串的第一个位置开始，依次比较字符是否相等，如果相等，则继续比较下一个；如果不相等，则从主串的第二个位置重新和模式串的字符匹配。完整匹配...

2018-08-17 10:59:03 17081 5

原创深度学习中优化算法小结

　　终于可以开始讲优化算法了（写博客真是太花时间了，不过对于自我总结还是很有帮助的），本篇博客主要参照《Deep Learing》第8章，《深度学习实战》第5章以及清华博士大佬的一篇知乎文章《一个框架看懂优化算法》。　　首先，我们先回顾一下优化算法的发展历程：SDG→→\rightarrowSGDM→→\rightarrowNAG→→\rightarrowAdaGrad→→\rightarro...

2018-08-15 16:08:40 2649

原创深度学习中的优化困难

　　在讲深度学习中优化算法之前，我想有必要对模型优化中常见的挑战有一个总览式的了解，这对于优化算法的理解还是有颇有裨益的。本篇博客是基于古德费洛的《Deep Learing》第8章和杨云的《深度学习实战》第五章总结归纳的。学习和纯优化　　机器学习中的优化过程也被称为是“学习”过程，它关注这样一类问题：寻找模型的一组参数θθ\theta，它能显著地降低代价函数J(θ)J(θ)J(\theta...

2018-08-13 22:28:14 1639

原创小结深度学习中的正则化（超详细分析）

回顾过拟合　　上一篇博客《浅谈机器学习中的过拟合》对过拟合进行了比较详细的分析。过拟合是指学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测的很好，但对未知数据预测的很差的现象。过拟合的是由数据和模型两方面原因共同造成的，最直接防止过拟合的方法是无限增大训练集的大小，让训练集样本与真实数据分布尽可能接近，但这么做实在是不太现实，一是我们根本无从知晓数据真实分布是什么样，二来增加...

2018-08-12 13:52:01 20944 6

原创浅谈机器学习中的过拟合

本篇博客主要是基于花书（古德费洛的《Deep Learning》）和西瓜书（周志华的《机器学习》）撰写的，其中插入了博主的一些个人见解，如有不对之处希望大家指出来一起来讨论一下嘿嘿，万分感谢。什么是一个好的机器学习算法？　　我想我们可以先从这个问题开始：一个机器学习算法满足什么条件才能被称得上是一个好算法？　　机器学习的主要挑战是我们的算法必须能够在先前未观测到的新输入上表现良好，...

2018-08-08 14:58:27 16342 3

原创卷积神经网络CNN的反向传播原理

　　上一篇博客《详解神经网络的前向传播和反向传播》推导了普通神经网络（多层感知器）的反向传播过程，这篇博客则讨论一下卷积神经网络中反向传播的不同之处。先简单回顾一下普通神经网络中反向传播的四个核心公式：...

2018-08-07 17:46:57 36311 13

原创详解神经网络的前向传播和反向传播（从头推导）

详解神经网络的前向传播和反向传播本篇博客是对Michael Nielsen所著的《Neural Network and Deep Learning》第2章内容的解读，有兴趣的朋友可以直接阅读原文Neural Network and Deep Learning。　　对神经网络有些了解的人可能都知道，神经网络其实就是一个输入XXX到输出YYY的映射函数：f(X)=Yf(X)=Yf(X)=Y，函...

2018-08-06 17:12:35 102138 20

原创 Video Colorization 文献综述（不定期更新）

1. 2012 《A learning-based approach for automatic image and video colorizaiton》　　关键词：自动图像着色，视频着色，随机森林，图像空间投票　　论文方法的框架如上图所示，大致可以分为4个步骤：　　（1）超像素提取　　（2）特征提取　　（3）特征学习　　（4）颜色笔画精炼和传播（1）超像素提...

2018-05-22 15:50:16 963

原创 Color Image Quality Index Based on the UIQI

Color Image Quality Index Based on the UIQI　　BovikBovikBovik和WangWangWang于2002年提出了UIQI（Universal Image Quality Index）指标，但是UIQI只考虑了图像亮度成分的畸变，不适用于彩色图。本文在UIQI的基础上，结合互相关度量，提出了CIQI（Color Image Qualit Ind...

2018-05-05 16:03:48 2608

原创 Spherical CNNs 翻译（未完成）

Spherical CNNs　　这篇文章是ICLR 2018上的Best Paper，由阿姆斯特丹大学发表。　　原文链接：https://arxiv.org/abs/1801.10130 　　参考：阿姆斯特丹大学论文提出球面CNN：可用于3D模型识别摘要　　卷积神经网络（CNNs）已经成为二维平面图像学习问题的首选方法。然后，近期研究中出现的大量问题需要面向球面图像的分析模型...

2018-04-25 17:16:26 2453 1

原创 Color-Mood Transformation

Color-Mood Transformation 参考文献：Data-Driven Image Color Theme EnhancementColor-Mood 颜色空间由activity，weight和heat三个坐标轴组成。CIELAB空间可以通过经验公式转为Color-Mood空间。　　对于Lab空间的一点c⃗ =(L∗,a∗,b∗)c→=(L∗,a∗,b∗)...

2018-04-22 15:38:18 355

原创全文翻译&杂记《Image-to-Image Translation with Conditional Adversarial NetWorks》

Image-to-Image Translation with Conditional Adversarial NetWorks　　这是加里福利亚大学在CVPR 2017上发表的一篇论文，讲的是如何用条件生成对抗网络实现图像到图像的转换任务。　　> 原文链接：https://arxiv.org/abs/1611.07004 　　> 论文主页：https://phillipi....

2018-04-17 14:01:46 43690 16

NuScenesAnalysis.zip

空空如也