深度学习
文章平均质量分 78
深度学习
gongyuandaye
不要再问我会不会写可持久化非确定状态AC自动分块维护线段平衡仙人掌优化最小费用最大流预处理混合图上莫比乌斯反演莫队带花舞蹈链并查集树状数组套主席树预处理动态DP分治FFT求多项式逆元对数函数的指数函数用可持久化并查集合并最小费用循环流上插头DP了。
展开
-
NICE-SLAM——论文简析
传统的适用于构建稠密图的视觉 SLAM,无法对未观察到的区域进行估计。另一类基于学习的方法通常是在特定任务的数据集上进行训练,因此能达到一定的预测能力。此外,基于学习的方法往往能更好地处理噪声和异常值,但是只适用于有几个物体的小场景。iMAP 应用了神经隐式表征,在房间大小的数据集上显示了不错的跟踪和建图结果。但是当扩展到更大的场景(如由多个房间组成的公寓)时,稠密图重建和相机跟踪精度都出现了明显的性能下降。其限制在于只用了一个 MLP 来表示场景,且只能根据新的局部数据进行全局更新。原创 2023-10-08 17:15:06 · 329 阅读 · 0 评论 -
iMAP——论文解析
理想的 3D 表征应该具备高效性(内存方面)、可预测性(未观察区域)、灵活性(复用性)。隐式神经表征(implict neural representation, INR)之前大多数用于离线重建,它使用 MLP 将 3D 点映射为空间中的颜色和不透明度,并从头开始进行优化,以适应特定场景。MLP 能对为观察到的区域进行重建。iMAP 的网络权重不需要 pre-train,追踪上用 MLP 渲染的深度和颜色调整相机的观察结果,建图上用一组关键帧训练和改进 MLP,并优化关键帧的位姿。原创 2023-09-24 22:38:22 · 508 阅读 · 0 评论 -
vMAP——论文解析
物体级的模型通常是最好的,但关键在于,要对场景中的对象进行分割、分类以及重建,需要了解多大程度的先验信息。如果没有先验,通常只能重建出来观察到的物体部分,还有像 CAD 和 类别级形状空间模型虽然能获取物体先验,但是仅限于有对应物体的模型存在。这个工作证明了在实时运行过程中,通过矢量化训练,大量独立的 MLP 物体模型可以在单个 GPU 上同时进行高效优化。与在整个场景的单一神经场模型中使用类似数量的权重相比,通过对物体进行单独建模,我们可以实现更准确、更完整的场景重建。原创 2023-09-17 17:31:30 · 821 阅读 · 0 评论 -
Co-SLAM——论文解析
传统的 SLAM 目前可以在将深度或颜色度量融合到一张高保真地图中的同时,稳定跟踪相机位置。然而,它们使用经过人工设计的损失函数,而不会充分利用基于数据的先验知识。目前有一些工作就是探索神经网络在 SLAM 中的能力,如直接从数据中学习平滑一致性先验。比如经典的 NeRF,使用基于坐标的网络,将场景密度和颜色编码进神经网络,再结合体绘制(Volume Rendering)可以重新合成输入图像,这对附近不可见的视图有很高的泛化能力。原创 2023-09-10 16:59:51 · 1245 阅读 · 1 评论 -
Semantic Visual SLAM 简述
slam的目的在于定位和建图。视觉slam由于其低成本、小场景下的高准确度、丰富的环境信息,得到了充分的应用,但同时又受到光照变化、动态物体、缺乏纹理信息的环境的挑战,且需要的计算资源较高,实时性较差。将语义信息与slam结合能够提升对图像特征的理解并建立高精度的语义地图,如早期的Slam++等。原创 2023-08-20 18:07:01 · 350 阅读 · 0 评论 -
CubeSLAM: Monocular 3D Object SLAM——论文简述
提出一种在动态和静态环境中同时进行3D目标检测和定位建图的方法,并且能够互相提升准确度。具体地,对于3D目标,其位置、方向和尺寸通过slam进行了优化;而3D目标作为slam中的路标,可以提供额外的语义和几何约束,从而提升相机位姿估计并减少尺度漂移,且无需回环检测和假设相机的高度不变。原创 2023-08-06 22:30:40 · 398 阅读 · 0 评论 -
自动驾驶中3D目标检测综述
在3D目标检测中,一般有两类评估指标,一类是将2D检测中的AP挪用到3D检测中,如KITTI,包含3D和BEV两个AP,分别代表3D上的IoU和BEV上的IoU,另一类评估指标则是基于下游任务的,如PKL、SDE等,比如在驾驶场景中,相同的IoU随着离驾驶人越近,权重增加,因为更能危及到驾驶人的安全问题,这就是AP指标未能考虑的点。但是PKL、SDE也不是完美的,PKL是需要预训练的运动规划器的,但是预训练的过程并非能保证不出错,而SDE需要重构物体边界,这通常是很复杂的。原创 2023-01-14 14:11:27 · 2625 阅读 · 2 评论 -
CLRNet: Cross Layer Refinement Network for Lane Detection——论文简述
CLRNet充分利用了低层次特征和高层次特征,因为两者是互补的,先基于高层次特征侦测道路,再基于底层次特征进行调优;由于遮挡的存在,使用ROIGather进行全局信息的收集,在ROI道路特征和全局特征图之间建立联系;损失函数使用Line IOU loss,将车道线作为一个整体来进行回归,从而提高定位的准确率。如下是车道检测中会出现的问题。原创 2022-11-06 21:33:30 · 1428 阅读 · 0 评论 -
SINetv2:Concealed Object Detection——论文简述
目标检测可以分为三个类别:通用目标检测(语义分割、全景分割)、突出目标检测和伪装目标检测。与上一篇文章一样,同样是伪装目标检测,但是取得了更好的效果。数据集采用COD10k,每张图片采用六种标注:属性(如下表所示)、类别(super-&sub-class)、bounding boxes、objectannotation、instance annotation 和 edge annotation。原创 2022-11-03 14:46:51 · 2101 阅读 · 2 评论 -
PFNet:Camouflaged Object Segmentation with Distraction Mining——论文简述
针对伪装目标检测,本论文提出了Positioning and Focus Network (PFNet),该网络包含两个模块,定位(positioning module,PM)和聚焦(focus module,FM)。其中,定位模块从全局定位目标可能所在的位置,聚焦模块对区域进行识别并消除干扰来完善分割结果。原创 2022-10-29 15:35:22 · 1692 阅读 · 1 评论 -
MobileViT——论文简述
标准的卷积操作可以看作:(1) unfolding,(2) matrix multiplication (学习局部特征), (3) folding 三种操作之和,MobileViT block也是类似,只不过将matrix multiplication替换为一系列的transformer层(全局处理),结果就是MobileViT也拥有卷积的类似属性。(2)CNN受益于设备层面的优化,包括batch normalization与卷积层的融合,这些优化改善了延迟和内存访问。维,并且与最初的输入进行拼接,再用。原创 2022-09-17 15:24:15 · 1704 阅读 · 0 评论 -
深度学习中的normalization总结(BN、LN、WN、IN、GN)
独立同分布(iit)的数据可以简化常规机器学习模型的训练、提升机器学习模型的预测能力,因此,在把数据喂给机器学习模型之前,“白化(whitening)”是一个重要的数据预处理步骤。白化一般包含两个目的:(1)去除特征之间的相关性 —— 独立;(2)使得所有特征具有相同的均值和方差 —— 同分布。白化最典型的方法就是PCA。原创 2022-08-23 21:29:35 · 1938 阅读 · 0 评论 -
深度学习常用公式与命令总结(更新中)
深度学习常用公式总结(更新中)原创 2022-08-03 14:37:25 · 476 阅读 · 0 评论 -
ConvNeXt:A ConvNet for the 2020s——模型简述
这篇论文对标去年的best paper:Swin Transformer,在相同的flops下具有更高的准确率和推理速度,它从各个方面借鉴了Swin的设计模式和训练技巧(如AdamW优化器),并一步步的将Swin的策略纳入到resnet的设计中,下图清晰地给出了模型上的一步步改动所引发的准确度的变化:...原创 2022-07-27 16:48:07 · 613 阅读 · 1 评论 -
YOLOv7——论文简述
可以看到YOLOv7在速度和准确度上较之前的检测器有非常明显的提升。作者提出了一种新的实时目标检测架构,针对解决重参数化模块的替换和动态标签分配问题,提出可训练的bag-of-freebies方法来提高准确度。(1)更好地适配移动端(2)关注训练过程的优化,而不增加推理成本(3)plannedre-parameterizedmodel,用梯度传播路径的概念分析了适用于不同网络中layers的模型重参数化。...原创 2022-07-22 15:26:37 · 2744 阅读 · 0 评论 -
YOLOv3-SPP-ultralytics 模型简述
将4张图片按照一定比例拼接在一起进行训练,提高batchsize,提升小目标的检测性能。在predict之前的convolutionalset中间插入spp模块,实现不同尺度的特征融合。(2)四张图片根据基准点,分别经过尺寸比例调整后,放置在指定尺寸图的四个顶点位置。代码https//github.com/ultralytics/yolov3。(1)随机选取图片拼接基准点坐标(xc,yc),另随机选取四张图片。(3)图片分割,对大图进行拼接。尺寸越大,可预测的物体越小。............原创 2022-07-19 18:40:35 · 923 阅读 · 0 评论 -
Swin Transformer:Hierarchical Vision Transformer using Shifted Windows——论文分析
挑战物体尺寸差异和高分辨率Transformer可以用作一个通用的网络,而不像ViT那样只用于分类。如上图,ViT全局建模,始终处理的是16倍下采样之后的特征,不适合密集预测型任务。SwinTransformer为了减少序列长度,在小窗口内做自注意力,用了locality的归纳偏置,节省资源。patchmerging,相邻小patch合成大patch,类似池化。如上图,在l层加上shift操作,窗口之间能进行交互,从而有全局自注意力的效果。......原创 2022-07-15 16:33:50 · 546 阅读 · 0 评论 -
ViT:Vision Transformer——论文简述
相关工作:transformer中的向量是512维的,而做图像分类中输入的图片是224224,用像素点当输入效率太低;用resnet输出的特征图,序列长度1414;轴向注意力,在H和W上分别做自注意力等等。将nlp中的transformer模型搬到cv中。将一张图片(224224)分成1616大小的patch(当作nlp中的单词),patch数量是14*14=196。cnn有 translation equivariance 和 locality 两个归纳偏置,ViT在中等规模的数据集上比不上,但在JF原创 2022-07-14 15:16:06 · 483 阅读 · 0 评论 -
Transformer——注意力模型分析及应用
特点:Transformer注意力模型解决了RNN中的attention效率低、训练时变形的问题。目的:机器翻译encoder和decoder是可叠加的。解码器拿到编码器的特征,结合已经翻译的单词完成翻译。如下图所示,红框表示encoder,蓝框表示decoder,N=6。输入:待翻译的词汇(L个独热编码) + 已翻译的词汇(M个独热编码)输出:单词的概率嵌入层:通过一个变换将单词的one-hot表示映射到连续空间上,其维度与模型维度512一致,可使用nn.Embedding函数实现。从而有:原创 2022-07-13 16:20:22 · 1537 阅读 · 0 评论 -
DCGAN:DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS——论文分析
DCGAN将CNN和GAN结合,在训练过程中状态稳定,并可以有效实现高质量的图片生成,因此现在的很多GAN都是在它的基础上进行改进。1、用卷积层代替池化层(如maxpooling),这允许网络学习到自身的上采样和判别器D。2、去除全连接层,将最高卷积特征直接连接到生成器的输入和判别器的输出,效果很好。3、使用批归一化(零均值单位方差),解决在深层次网络中梯度低的问题,防止生成器G将所有样本压缩到一个点。但不对生成器G的输出层和判别器D的输入层使用,否则模型会不稳定。4、生成网络使用ReLU,其中输出层原创 2022-07-09 15:27:31 · 458 阅读 · 0 评论 -
GAN:Generative Adversarial Nets——论文分析及其背后的数学概念
输入:随机噪声输出:采样自训练样本分布的图像生成模型G:捕捉数据分布,期望产生尽量真实的图片,骗过D。判别模型D:评估一个样本出自训练集而非G的可能性,期望准确区分真假图片。双人制minimax游戏:算法如下:其中:1、在内循环中完成D的优化是复杂的,且在有限的数据集上会过拟合,所以先完成k轮D的优化(梯度上升),再完成一轮G的优化(梯度下降,实际使用时有变化)。结果表示只要G变化的足够慢,D能维持在最优解附近。2、min过程(梯度下降)中,生成样本非常糟糕时,判别器输出值都会很小,生成器原创 2022-07-08 16:22:00 · 250 阅读 · 0 评论 -
Git & Github ——多人开发
每次开始写代码前:git pullgit checkout BeGiftedgit rebase dev写代码上传github分支:git add .git commit -m “第一次提交”git push origin BeGifted合并操作:git checkout devgit merge BeGiftedgit push origin dev原创 2021-03-19 20:41:46 · 203 阅读 · 1 评论 -
Visual Studio 2019 新建OpenGL项目无需重新配置环境
(1)原文件为GLFWOpenGL,直接复制该项目至同一目录下,改名为Texture。(2)打开Texture,点击.sln文件即可,无需重新引进依赖项,ok完成。原创 2020-09-24 08:50:31 · 440 阅读 · 2 评论 -
妈妈,我以后也要上南邮!
我一上车发现角落里只有一个空位了,旁边坐着一个mm,嘿嘿,我忙走过去一屁股坐下,那漂亮mm很熟练的皱皱眉头,职业性的使劲往旁边挪。 “到 哪?” “南邮。” “哪?” 这个面部肌肉僵硬的售票员一脸不解。 “南京邮电大学,唔”,一说完我明白了,忙改 口,“仙林大学城文苑路9号。” "南京邮电大学?!"丫更吃惊了。这么高的分贝使全车的人都回头。我前座的一位再老就不能说话的那种老人,悠悠的问:“小伙 子,你真是南邮的?” 这似乎是所有人所期盼得到答案的问题。大家盯着我看,看得我都脸红。我更感受到了旁边mm由于迅速原创 2020-08-23 14:57:00 · 2048 阅读 · 3 评论