自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

团队:地平线时间:代码:简介:PETR是query-based方法,但是为了实现特征融合,进行了全局注意力机制,导致高计算量。image通过backbone和FPN,得到多尺度特征,略。这一层是为了提取这一帧新出现的障碍物。根据SparseDrive在附录的信息,初始化900组特征和anchor,然后选出打分最高的300组highest confidence instances给到multi-frame layers。这一层拿到sigle frame layer输出的300组障碍物信息,然后再从mem

2024-07-25 11:07:21 414

原创 【论文精读】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

这一篇论文里详细讲解了deformable aggregation,在后续的sparsedrive中也用到了这个模块。sparsedrive的思想和本文基本一致。

2024-07-24 15:06:43 419

原创 【论文精读】Fully Sparse 3D Occupancy Prediction

团队:南京大学,上海人工智能实验室时间:2023年12月代码:https://github.com/MCG-NJU/SparseOcc。

2024-07-22 19:48:28 1037 1

原创 自动驾驶目标检测常见Metrics

简述:A平均是指在不同recall的平均,m平均是指在不同class的平均。

2024-07-18 20:16:18 359

原创 【论文精读】SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation

团队:清华大学,地平线投稿会议:暂时未知,挂在rxiv代码链接:https://github.com/swc-17/SparseDrive开环测试数据集:nuScenes。

2024-07-17 18:33:40 574 4

原创 【论文精读】Exploring the Causality of End-to-End Autonomous Driving

团队:百度代码:https://github.com/bdvisl/DriveInsight论文思想简述:这篇论文并不是提出SOTA模型,而是提出了一些的方法。

2024-07-11 14:51:44 681 3

原创 自动驾驶论文总结

如何理解agent centric。

2024-07-10 15:04:06 374

原创 深度学习进阶

TransformerMHA的好处:Multi head attention能够让模型关注到不同的信息,增强表达能力,提高模型性能;时间复杂度是O(N2),因为每个词都需要和其他所有词进行Attention操作,所以是N2。CNN卷积核权值共享,因此具有平移不变性,减少参数量为什么基本不用大卷积核了?(1)大卷积核参数量更大;(2)计算更复杂;(3)可以用多个小卷积核进行平替,且非线性效果好。激活函数sigmoid经常用于分类场景,作为概率输出relu经常作为隐藏层激活函数

2024-07-10 13:40:58 194

原创 torch_scatter::scatter_max 转onnx再转tensorrt踩坑记录

方法选择。

2024-06-27 14:02:08 516

原创 【论文精读】PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving

团队:英伟达会议:CVPR2024。

2024-06-18 16:58:38 547

原创 计算机领域主要论文及投稿时间

两年一次,跟ICCV正好错开。两年一次,跟ECCV正好错开。2013年开始,每年一次。

2024-06-16 18:36:29 292

原创 【论文阅读】SparseAD: Sparse Query-Centric Paradigm for Efficient End-to-End Autonomous Driving

论文链接:https://arxiv.org/pdf/2404.06892团队:迈驰、中科大。

2024-06-12 21:00:03 186 1

原创 【论文精读】WHY GRADIENT CLIPPING ACCELERATES TRAINING : A THEORETICAL JUSTIFICATION FOR ADAPTIVITY

MIT的论文2020年。

2024-05-28 18:37:57 236

原创 重要结论:Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?

论文链接:https://arxiv.org/pdf/2312.03031。

2024-05-17 17:04:49 369

原创 map net收集

toc()

2024-03-31 17:45:16 597

原创 深度学习基础

但是要注意:噪音背景需要和清晰的音频一样diverse,不能音频有1000条,噪音只有1条,要不然可能过拟合。为了能够使其适用于TaskB,需要对模型进行进一步训练,这个过程取决于taskB的样本数量。make similar的方法包括数据合成。比如含有噪音的音频。迁移学习是原本适用于taskA的模型同样应用在taskB。训练集和验证集的数据分布不同。模型没见过,没学习到;该方法在音频识别种效果很好。

2024-02-12 21:26:52 1123

原创 从MultiPath到WayFormer

假设预测30步,一共有16条anchor轨迹,那么需要预测。

2024-01-21 23:52:43 553 1

原创 shell命令行学习

h表示human-readable format,人类可读的大小。s表示summrize,对这个文件夹下所有的目录进行统计。设置max-depth,就只统计往下几级目录。其中du表示disk usage。

2024-01-20 11:42:59 492

原创 Mac开发指南

ubuntu用apt-get。

2023-11-20 13:58:16 158

原创 【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations

院校:德国的图宾根大学网站:https://www.katrinrenz.de/plant。

2023-11-05 17:14:16 350

原创 卷积与反卷积

可参考:https://zhuanlan.zhihu.com/p/48501100《反卷积(Transposed Convolution)详细推导》反卷积/转置卷积的操作是在《Visualizing and Understanding Convolutional Networks》中提出来的。设输入维度为i x i,卷积核大小为k x k,padding为p,strides为s,则输出维度为 (i - k + 2p) / s +1。i - k是不考虑padding的情况下,卷积核能纵向/横向移动的次数。

2023-11-05 13:22:17 222

原创 解决报错torch._C._gather(tensors, dim, destination) RuntimeError: Input tensor at index 1 has invalid

在pytorch的分布式训练中,每个卡都会有一个模型(replicate步骤),以及分配的输入(scatter步骤),最后再把每个模型的输出合并(gather步骤),如果每个模型输出的维度不一致的话,是无法gather的。因此,查看模型return的值,确实是在根据场景实时变化的。其会根据各个样本中具体场景而发生变化,而不同的卡上输出tensor维度不一样,所以无法gather。报错虽然出现在底层,但是问题本身还是在于模型。在改掉变化的部分之后能够正常运行。

2023-11-01 11:19:23 319

原创 【自动驾驶】Free space与Ray casting

用ray casting算法可以使用lidar信息,提取出类似2d visibility的区域,将这种信息给到自动驾驶规划蹭,可以得出更合理的轨迹。如果和【wall tracking墙面跟踪】结合起来的话,可以再简单一点,其思想是沿着中心点旋转,找到最近的不被遮挡的端点,即可构成三角形。当然,这样的话得发出非常多的光线,其实也可以在知道所有的墙或者障碍物的端点的情况下,按顺序遍历端点,然后就可以找到该三角形。相邻的角度之间构成会构成三角形,三角形组合起来就是全部的可视性范围。

2023-10-28 16:49:44 998

原创 MessagePassing分析与说明

在图神经网络中,如何像在欧式空间一样进行卷积操作,其重要的问题在于如何更新当前位置的信息。其每个位置(或者叫节点node)的更新方式如下所示。这一个式子既可以表达GCN,也可以表达Edge Conv。

2023-10-25 13:47:15 137

原创 代码阅读:LanGCN

toc。

2023-10-23 23:55:43 140

原创 【论文精读】NMP: End-to-end Interpretable Neural Motion Planner

cost volume经典之作

2023-10-15 18:03:35 395

原创 阅读LINGO-1: Exploring Natural Language for Autonomous Driving

网页链接:https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/wayve在9月14日公布了大语言模型和自动驾驶的结合模型LINGO-1,可以用自然语言解释自动驾驶的决策原因。大型语言模型LLM在AI领域研究和应用越来越多。视觉语言模型VLM,vision-language model。文本图像检索text-to-image retrieval。图片分类image classification。但是目前没有论文和开源代码。

2023-10-02 14:13:46 267

原创 论文精读NMP:Neural Map Prior for Autonomous Driving

去高精地图的方法之一

2023-09-30 11:14:06 620

原创 论文精读Motion Prediction of Traffic Actors for Autonomous Driving using Deep Convolutional Networks

6.根据dropout分析(dropout analysis,随机丢弃节点,防止过拟合,参考深度学习Dropout技术分析),模型没有什么太大变化,说明已经收敛,增加额外信息没有必要。Along-track error,沿轨误差,我理解是沿着车道线的纵向误差,因为轨迹点是按照固定时间间隔得到的。4.图片中车头朝上,放在图片的(15m, 5m)位置,车辆前方有25m,后方有5m,作为环境信息;目前基于学习的方法需要人工设计特征,以获取环境信息,导致性能是次佳的(suboptimal)。

2023-09-24 10:48:10 99

原创 论文精读VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation

2.predction的时候不一定要MLP for simplicity,可以考虑LSTM,因为轨迹点之间都是有关系的,论文里自己也写了可以用其他advanced decoders。进行节点补全工作(故意遮蔽输入节点,让模型去重建这些特征,以此让模型能够更精准地捕捉交互信息),这样的做法让模型更加强大。将车辆动态信息和结构化的高精地图信息向量化(vectorized form),通过向量化的信息进行轨迹预测;1.向量化的时候,选取的特征可以选择更多有用的信息,目前选择的较少(首位信息,类型信息等)。

2023-09-23 22:40:21 169

原创 论文精读GAN: Generative Adversarial Nets

如果训练太多次判别器再训练生成器,那么可能导致【模式崩溃】(不管给什么噪声,输出结果一样)因为生成器没有直接接触样本,而是通过判别器告诉它像不像,就像枯叶蝶不知道枯叶长什么样子;源码地址:http://www.github.com/goodfeli/adversarial。论文链接:https://arxiv.org/abs/1406.2661。而是采用的深度学习,深度学习中有完备的训练技巧。条件GAN:指定生成什么类型的图片,比如固定数字、某种小动物等;图像填充:把图像中的路人用风景填充。

2023-09-23 22:31:17 173

原创 论文精读Transformer: Attention is all you need

CNN需要很多层才能把距离很远的像素或者输入联系起来,输入长度和计算复杂度成线性关系,导致(1)难以学习远距离的输入;4.Transformer的时间复杂度与序列长度成平方关系,而RNN和CNN与序列长度成正比,所以在数据集太大的时候,计算复杂度会更高computational complexity。LSTM是循环执行的,依赖前一项隐藏层信息h(t-1),天然不适合并行,而且受限于隐藏层大小,更容易丢失以前的信息。Transformer因为不依赖之前的信息,所以可以进行并行可算,减少计算时间。

2023-09-23 22:27:35 198

原创 论文精读ResNet: Deep Residual Learning for Image Recognition

论文链接:https://arxiv.org/abs/1512.03385Github链接:https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py知乎讲解:ResNet论文笔记及代码剖析。

2023-09-23 22:19:55 187

原创 论文精读MP3: A Unified Model to Map, Perceive, Predict and Plan

MP3采用了无高精地图的端到端的方法,并且能够生成可解释的规划 决策的中间表示。中间表示包含未来的位置和速度。首先采用backbone来踢去地图特征与语义特征,然后生成中间表示。

2023-09-17 20:26:51 212

原创 论文精读Safetynet

第一篇深度学习+规则的planning方案

2023-09-10 20:57:37 294

原创 NJ求职盘点

泊车、SLAM/3D算法工程师。地平线 后摩智能 芯启源。可以做自动驾驶前瞻性研究。视觉感知算法资深工程师。

2023-09-10 11:52:47 80

原创 VectorNet复现指南与源码分析

在argoverse-api文件夹下根据setup.py来安装必要依赖。

2023-07-22 16:05:23 537 1

原创 Python基本功

python基本知识总结

2023-04-24 21:44:01 70

原创 Apollo使用方法

Apollo入门,做一个记录

2023-02-24 19:53:14 1480

原创 Jupyter编程的方法

windows使用jupyter

2023-02-03 10:43:36 395

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除