论文解读
文章平均质量分 70
解读AI领域最新论文。
leo0308
AI攻城狮
展开
-
毫米波雷达与图像融合之CRF-Net
image检测虽好, 但是在恶劣天气面前表现就不行了, 而radar的特性刚好可以弥补这一点。这篇文章的出发点是为了融合radar和image, 从而提升image检测的表现。原创 2022-12-06 12:08:56 · 1485 阅读 · 0 评论 -
CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection 解读
自动驾驶的感知应用中, 通常会融合多模态传感器, 如lidar和camera的融合。 单纯基于radar做感知的研究工作很少, 用radar的场景一般都是和其他传感器进行一个融合。 本文要讲的CenterFusion就是一篇融合Camera和Radar的工作。原创 2022-12-05 23:11:35 · 860 阅读 · 0 评论 -
DDDM: A Brain-Inspired Framework for Robust Classification
这篇文章的出发点是解决人工神经网络的鲁棒性问题。 尽管当前的神经网络在很多任务上都取得了很好的效果, 但是对抗噪声的能力都比较弱, 当输入存在噪声时, 输出结果可能完全不同。 而人脑并不会出现这种问题。 从人脑的认知中收到启发, 人脑在进行复杂感知时, 是存在渐进式的, 随着时间不断的推移, 累积更多的线索, 从而做出决策。 这篇文章就是模仿人脑这种感知的特点, 提出了用时间换模型鲁棒性的方法。原创 2022-11-24 11:22:06 · 412 阅读 · 0 评论 -
Training-free的NAS方法KNAS解读
论文: KNAS: Green Neural Architecture Search代码:https://github.com/Jingjing-NLP/KNAS0 引言这篇工作的最大亮点是可以不进行训练的情况下做NAS(神经网络架构搜索)。NAS可以分为3个主要部分, 搜索空间, 搜索算法(或者叫优化算法), 以及评估。 其中评估这个过程一般需要依赖训练, 所以最为耗时。如何减少这一部分耗时, 有许多的改进方向。 其中一个分支研究的是无评估的NAS搜索, 如DART,但是效果不太好; (这一部分的原创 2022-04-28 22:08:58 · 2840 阅读 · 0 评论 -
PointRCNN解读
论文:PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud代码:https://github.com/sshaoshuai/PointRCNN0 引言PointRCNN 是第一个只基于3D点云的两阶段3D检测方法。1 网络结构第一阶段,通过PointNet++ 进行特征的提取,基于提取到的特征可以进行前景和背景的分割, 在每个前景点上进行3D框的预测。 这一步预测是比较粗糙的, 主要是为了提取出proposa原创 2022-04-16 11:41:37 · 646 阅读 · 1 评论 -
3D点云的深度学习综述
0 引言主要总结了3D点云的三类主要任务:3D形状分割, 3D检测和跟踪, 3D点云分割, 并且只关注深度学习方法的应用。全局思维导图:1 常用数据集2 3D形状分类主要网络及发展历程:主要网络在ModelNet10/40 上的benchmark结果:3 3D目标检测和跟踪3.1 检测主要网络及发展历程:典型的网络结构图:主要网络在KITTI上的Benchmark结果:3.2 跟踪4 3D点云分割4.1 3D语义分割主要网络及发展历程:语义分割的benchma原创 2022-04-09 18:01:12 · 2228 阅读 · 5 评论 -
单目3D目标检测网络SMOKE解读
论文: SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation代码: https://github.com/lzccccc/SMOKE0 引言现有的单目3D目标检测基本都是2阶段的, 首先基于2D目标检测生成目标的2D候选区域, 然后针对获取到的2D候选区域预测目标的位置姿态等。 论文认为2D检测是不必要的, 甚至会引入不必要的噪声。 如果已知目标的3D属性和相机的内参, 根据几何投影关系是可以得到2D属性的,原创 2022-04-08 19:54:05 · 4764 阅读 · 0 评论 -
单目3D目标检测方法CaDDN解读
论文:Categorical Depth Distribution Network for Monocular 3D Object Detection代码:https://github.com/TRAILab/CaDDN0 引言单目3D检测的最大难点在于深度的估计,精确的深度估计是非常困难的, 已有的方法大多估计都不准。 CaDDN 主要的贡献也是在深度估计上, 它的思想是既然精确地深度估计很困难, 那就估计一个大概的深度范围。 具体而言, 就是不直接回归连续的深度值, 而是把深度离散化为一些范围,这原创 2022-04-07 22:43:39 · 3786 阅读 · 0 评论 -
PointPillars解读
论文: PointPillars: Fast Encoders for Object Detection from Point Clouds0 简介介绍PointPillar之前, 先简要介绍一下voxel-based检测方法的发展历程。VoxelNet是第一个将点云转换为体素(voxel)进行3D目标检测的, 但是由于3D卷积的使用, 性能非常低。 SECOND主要把3D卷积换成了更高效的稀疏卷积, 并且增加了一些数据增强, 在性能上有比较大的提升。 虽然使用了稀疏卷积, 但3D的卷积依然比较耗费资源原创 2022-04-07 14:18:36 · 8541 阅读 · 7 评论 -
Dynamic Transformer for Efficient Machine Translation on Embedded Devices论文解读
0 引言这篇文章是基于HAT做的, 主要解决的是嵌入式设备运行时的资源状态和搜索网络时不一致的问题, 在运行时还会动态微调网络,这就是标题中Dynamic的体现。 关于HAT可参考我的另一篇博客HAT: Hardware-Aware Transformers for Efficient Natural Language Processing论文解读1 动机传统的网络搜索都是静态的, 也就是说对于一个特定的硬件设备, 我们会搜索一个在这个设备上最优的网络。 但是嵌入式设备上情况要复杂一些, 比如设备原创 2022-04-02 20:27:06 · 274 阅读 · 0 评论 -
PointNet++深入解读
论文:PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space代码:0 引言PointNet++ 是PointNet的改进版。 PointNet的一个很大的缺点是无法获得局部特征,在复杂任务(如分割等)上的表现并不是很好。这个跟PointNet的结构设计有很大关系, PointNet把一个点云中的所有点当做一个整体, 直接提取了一个全局特征, 缺乏局部点之间的关联。PointNet++非常核心的一点原创 2022-03-29 20:33:24 · 2849 阅读 · 0 评论 -
共享权重的Transformer网络
论文:[Lessons on Parameter Sharing across Layers in Transformers](Lessons on Parameter Sharing across Layers in Transformers)代码:https://github.com/takase/share_layer_params1 介绍这篇文章提出了三种Transformer网络权重共享的方式, 降低了参数量。 在同参数量的情况下可以达到比原始Transformer网络更高的精度。假设参原创 2022-03-29 16:54:32 · 2472 阅读 · 0 评论 -
VoxelNet深入解读
论文:VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection代码:0 介绍在基于激光雷达点云的3D检测方法中, 有两类常见的算法, 一种是Point-based, 即直接基于原始的点云数据进行操作; 另一类是Voxel-based,通过把原始的点云数据处理成规则的voxel, 从而可以使用传统的CNN等方法。 VoxelNet就是voxel-based 的经典模型。1 网络结构整体的网络结构非常简单, 主要包原创 2022-03-28 22:06:41 · 2764 阅读 · 2 评论 -
PointNet介绍
论文:PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation代码:https://github.com/charlesq34/pointnet0 引言PointNet是处理点云数据的深度学习模型,其地位堪比2D图像处理中的CNN网络, 后续的诸多点云数据处理的深度网络都有PointNet的影子。1 点云数据介绍既然PointNet处理的是点云数据, 那么首先需要先知道点云数据是长什么样子。 其实所谓点原创 2022-03-25 21:20:53 · 10349 阅读 · 0 评论 -
每日论文速读
2022.02.21[1] Cyclical focal loss论文链接:https://arxiv.org/abs/2202.08978主要贡献:提出了一种新的周期性的focal loss, 并证明了它比交叉熵loss 和focal loss 更加通用, 在多个数据平衡/不平衡的任务上都取得了较好的结果。[2] DataMUX: Data Multiplexing for Neural Networks论文链接:https://arxiv.org/abs/2202.09318主要贡献: 提出原创 2022-02-21 20:49:59 · 1753 阅读 · 0 评论 -
ProxyLessNAS
paper: ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardwarecode: https://github.com/MIT-HAN-LAB/ProxylessNAS1 动机传统的NAS算法非常耗费GPU 计算资源, 因此通常无法直接在大型的目标任务上直接进行搜索, 一般都是在小型的代理任务上进行搜索, 搜索的结果直接迁移到目标任务上。但这种迁移无法保证在目标任务上是最优的。代理任务一般包括:1)在原创 2021-12-20 22:43:38 · 347 阅读 · 0 评论 -
Vision Transformer综述
0 前言Transformer在NLP领域取得了巨大的成功, 大量研究者开始在视觉领域尝试Transformer, 并取得了很多优于传统CNN网络的结果。这些研究大致可以归为以下几类:backbone, high/mid-level vision, low-level vision, video processing, muti-modal task, efficient transformer.下表列出了每一个分类里面的代表性工作, 可以作为一份学习指南。1 典型工作1.1 backbone原创 2021-12-19 22:31:24 · 679 阅读 · 0 评论 -
Transformer最新综述
0 前言Transformer在人工智能领域取得了非常的成功, 如NLP, CV, 音频处理等等。 针对Transformer的改进工作也层出不穷, 这些Transformer的变体大概可以分为3类:模型结构的优化, 预训练, 以及Transformer的应用。1 模型结构的优化1.1 模块级的优化1.1.1 注意力机制1.1.1.1 稀疏Attention1.1.1.2 线性Attention1.1.1.3 查询原型和内存压缩1.1.1.4 低秩自注意力1.1.1.5 先验的注意力1原创 2021-12-17 20:29:46 · 4968 阅读 · 0 评论 -
HAT: Hardware-Aware Transformers for Efficient Natural Language Processing论文解读
1 介绍Transformer网络取得了非常大的成功并具有广泛的应用。 然而由于它巨大的计算代价,使得部署到手机等端侧设备面临巨大的挑战。在评估Transformer网络的效率时有两个常见的陷进: 1) FLOPs不能反映真实的时延; 2)不同硬件偏好不同的Transformer结构。上图表明, 在一个硬件上表现好的网络在另一个硬件上表现反而不好。上图表明: 1)FLOPs在lateny并不完全是线性关系; 2)不用硬件的影响因素不同。受NAS成功的启发, 我们提出了搜索硬件感知的Transf原创 2021-12-14 23:52:19 · 3215 阅读 · 0 评论 -
Transformer模型深入理解
1 模型总览整个模型的结构是标准的Encoder-Decoder结构, Encoder部分堆叠6个相同的encoder层, Decoder部分同样堆叠6个相同的decoder层。继续深入模型的内部, 每个encoder层包含2部分: 一个自注意力层和一个前馈层。每个decoer层包含3部分: 一个自注意力层, 一个交叉注意力层和一个前馈层。再继续深入,网络还采用了残差结构, 每个自注意力层和前馈层之后都进行了残差连接, 并且使用了归一化。2 Attention机制理解3 实例解析4 参考原创 2021-11-21 20:13:41 · 1903 阅读 · 3 评论 -
vision transformer论文解读
1 相关参考:[1] https://blog.csdn.net/longxinchen_ml/article/details/86533005 图解transformer, 这篇博客以生动的图解详细介绍了transformer的基本原理[2] https://zhuanlan.zhihu.com/p/104393915 【经典精读】Transformer模型深度解读 这篇博客也是介绍transformer的原理, 相比上一篇博文更加深入一点,2篇博文可以对照学习, 能更好的理解[3] http原创 2021-11-20 23:01:43 · 259 阅读 · 0 评论 -
CVPR2021论文整理
1 NAS[1] Neural Architecture Search with Random Labelspaper: https://arxiv.org/abs/2101.11834code: https://github.com/megvii-model/RLNAS核心思想: 提出了一种基于随机标签的nas算法, 即搜索阶段不需要真实标签训练模型和评估模型指标, 通过计算初始权重与当前训练权重的角度指标(类似余弦相似性指标)来评估模型的收敛性,收敛性快的模型是更优的模型。...原创 2021-09-01 21:36:51 · 185 阅读 · 0 评论 -
[论文解读] Don‘t Hit Me! Glass Detection in Real-world Scenes
论文链接: https://openaccess.thecvf.com/content_CVPR_2020/html/Mei_Dont_Hit_Me_Glass_Detection_in_Real-World_Scenes_CVPR_2020_paper.html1 总述这篇文章针对玻璃检测的问题, 提出了一个新的用于玻璃检测的网络GDNet, 并在作者自己构建的GDD数据集和其他一些公开数据集上取得了SOTA的结果。这篇文章的主要贡献点有3个: 第一,构建了一个专门用于玻璃检测的数据集GDD; 第二,原创 2021-01-24 18:57:48 · 1178 阅读 · 2 评论