自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 【大模型学习】利用最新版Langchain-Chatchat搭建个人知识库问答LLM

如果存在此选项,则使用它。修改配置文件,需要根据步骤2. 模型推理框架并加载模型中选用的模型推理框架与加载的模型进行模型接入配置,具体参考model_settings.yaml中的注释。默认知识库位于CHATCHAT_ROOT/data/knowledge_base,如果你想把知识库放在不同的位置,或者想连接现有的知识库,可以在这里修改对应目录即可。-i, --incremental:本地文件夹中存在文件的增量更新矢量存储,数据库中不存在。--trim-db:删除本地数据库中不存在的文档文件夹中的文档。

2024-07-19 15:59:28 799

原创 【书生大模型实战】L0-Git 基础知识

每位参与者提交一份自我介

2024-07-16 10:13:50 250

原创 【书生大模型实战】L0-Python

【书生大模型实战】L0-Python。

2024-07-16 09:24:19 221

原创 【书生大模型实战】L0-Linux

【书生大模型实战】L0-Linux

2024-07-15 18:11:00 627

原创 【开放词汇分割】Side Adapter Network for Open-Vocabulary Semantic Segmentation

Side Adapter Network (SAN) 是一个端到端的框架,旨在充分利用CLIP模型在开放词汇语义分割中的能力。SAN由一个轻量级的视觉Transformer实现,可以利用CLIP的特征,并且有两个输出:掩码提案和用于掩码识别的注意力偏差。这些注意力偏差应用于CLIP的自注意力机制,以识别掩码提案的类别。在实践中,将浅层 CLIP 层的特征融合到 SAN 中,并将注意力偏差应用于更深的 CLIP 层以进行识别。通过这种单前向设计,可以最大限度地降低 CLIP 模型的成本。SAN的详细架构。

2024-07-01 17:05:59 609

原创 【机器学习】gumbel softmax的介绍

Gumbel-Softmax 是一种技术,用于在离散选择中引入可微分的近似。这对于需要在神经网络中进行离散采样(如分类任务或生成离散数据)而不破坏梯度计算非常有用。Gumbel-Softmax 可以看作是对经典的 Softmax 函数的一种扩展,结合了 Gumbel 噪声,用于逼近离散的 one-hot 向量,同时保持梯度的可计算性。在许多机器学习任务中,需要从一个离散的分布中采样。例如,在强化学习或生成模型中,可能需要从一组离散的动作或词汇中进行选择。

2024-06-25 18:49:11 1034

原创 【PyTorch函数解析】einsum的用法示例

einsum 是一个非常强大的函数,用于执行张量(Tensor)运算。它的名称来源于爱因斯坦求和约定(Einstein summation convention),在PyTorch中,einsum 可以方便地进行多维数组的操作和计算。在Transfomer中,einsum用的非常多,比如使用 einsum 实现自注意力机制中注意力权重的获取,也就是Q和K的内积:Q(Query):形状为 (batch_size, seq_len, d_k)

2024-06-25 18:27:48 875

原创 【开放词汇分割】GroupViT: Semantic Segmentation Emerges from Text Supervision

在视觉场景理解中,分组和识别是关键的任务,常见于目标检测和语义分割等应用。传统的深度学习方法通常依赖于像素级的标注,通过全卷积网络(Fully Convolutional Networks, FCNs)直接在输出层进行像素级的分类。然而,这些方法存在两个主要问题。

2024-06-25 00:06:13 958

原创 【多模态融合】IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection

3D目标检测在自动驾驶和机器人等应用中是一个关键任务。尽管点云提供了关于3D空间的宝贵几何信息,但通常缺乏详细的纹理描述且分布稀疏,特别是在远距离场景中。为了克服这些限制,近期的趋势是通过融合点云和多视角图像的信息进行多模态3D目标检测。图像模态提供了详细的纹理和密集的语义信息,补充了稀疏的点云,从而增强了3D感知能力。

2024-06-04 00:50:10 849

原创 【模型架构】学习最火热的Mamba、Vision Mamba、MambaOut模型

状态空间模型(State Space Model, SSM)是一种用于描述动态系统的数学模型,特别适用于时间序列分析和控制系统设计。它将系统的状态表示为一个状态向量,并通过状态方程和观测方程描述系统的动态行为和观测过程。因此,SSM是可以用于描述这些状态表示并根据某些输入预测其下一个状态可能是什么的模型,这就符合了作为深度学习模型基础架构的条件。SSM的计算示意图具体来说,可以用下面的公式描述上述过程:状态变量:描述系统当前状态的变量。状态变量通常是一个向量,包含系统当前时刻的所有信息。

2024-06-01 20:43:20 1604

原创 【模型架构】学习RNN、LSTM、TextCNN和Transformer以及PyTorch代码实现

在自然语言处理(NLP)领域,模型架构的不断发展极大地推动了技术的进步。从早期的循环神经网络(RNN)到长短期记忆网络(LSTM)、Transformer再到当下火热的Mamba(放在下一节),每一种架构都带来了不同的突破和应用。本文将详细介绍这些经典的模型架构及其在PyTorch中的实现,由于我只是门外汉(想扩展一下知识面),如果有理解不到位的地方欢迎评论指正~。个人感觉NLP的任务本质上是一个序列到序列的过程,给定输入序列,要通过一个函数实现映射,得到输出序列。

2024-05-31 20:25:32 1473 2

原创 【多模态融合】SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection

自动驾驶汽车依靠激光雷达和摄像头等多个传感器来感知周围环境。然而,两个传感器获取的同一物理场景的表示通常存在显着差异,因为 LiDAR 传感器使用 360 度旋转捕获点云,而相机从没有深度感的透视图捕获图像。这阻碍了激光雷达和相机模式的有效和高效融合。为了应对这一挑战,提出了多传感器融合算法来寻找多模态数据之间的对应关系,将它们转换并融合到统一的场景表示空间中。

2024-05-27 22:24:02 598

原创 【模型架构】目标检测中的单阶段、两阶段、Anchor-Free和Anchor-based,以Faster-RCNN、YOLO、CornerNet、CenterNet为例

目标检测算法中,可以按照单阶段(One-Stage)和两阶段(Two-Stage)进行划分,也可以按照Anchor-Free和Anchor-based进行划分类型。不过,目前更流行的提法是后者。

2024-05-25 16:26:19 1132

原创 【问题解决】ImportError: generic_type: cannot initialize type “ExternalAllocator“

我的环境是Ubuntu20.04,Cuda版本是11.4,在复现OpenPCDet的时候遇到了下面问题:

2024-05-22 16:59:32 333

原创 【多模态融合】Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

多传感器融合在自动驾驶系统中展示了其巨大优势。不同的传感器通常能提供互补的信息。例如,摄像头以透视视角捕捉信息,图像中包含丰富的语义特征,而点云则提供更多的定位和几何信息。充分利用不同传感器有助于减少不确定性,从而进行准确和鲁棒的预测。然而,由于不同模态的传感器数据在分布上的巨大差异,融合这些多模态数据一直是个挑战。当前的主流方法通常通过构建统一的鸟瞰图(BEV)表示来进行多模态特征融合,或通过查询令牌(Transformer架构)来实现多模态融合。

2024-05-20 17:43:38 1206

原创 【学术工具】Ubuntu环境利用bypy进行无图形化快速下载文件

近日使用百度网盘下载东西的时候遇到了一个问题,Ubuntu环境不知道为什么一直登录不进百度网盘。找了很多攻略都没有解决问题,以此考虑另辟蹊径。

2024-05-18 11:25:29 217

原创 【3D目标检测】HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras

目前的 3D 感知模型采用了大型图像编码器、高分辨率图像和长期时间序列输入,带来了显着的性能提升。然而,由于计算资源的限制,这些技术在训练和推理场景中通常不兼容。此外,现代自动驾驶系统更倾向于采用端到端的多任务3D感知框架,这可以简化整体系统架构并降低实现复杂度。然而,在端到端 3D 感知模型中联合优化多个任务时,任务之间经常会出现冲突。

2024-05-10 17:16:29 968

原创 【3D目标检测】常见相关指标说明

mean Average Precision(平均精度均值),它是目标检测和信息检索等任务中的重要性能指标。mAP 通过综合考虑精度和召回率来衡量模型的总体性能。

2024-05-07 13:33:31 978 2

原创 【多模态融合】SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

本文介绍了 SparseLIF,这是一种高性能完全稀疏多模态 3D 物体检测器,其性能优于所有其他密集对应检测器和稀疏检测器。 SparseLIF 通过在查询生成、特征采样和多模态融合三个方面增强丰富 LiDAR 和相机表示的感知来弥补性能差距。

2024-04-29 14:09:43 910

原创 【3D目标检测】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

本文贡献:(1)提出Sparse4D是第一个具有时域融合的稀疏查询多视图3D检测算法;(2)提出了一种可变形的4D聚合模块,可以灵活地完成多维(点、时间戳、视图和比例)特征的采样和融合。(3)引入了深度重加权模块,以缓解基于图像的 3D 感知系统中的不良问题。(4)在nuScenes 数据集上,Sparse4D优于所有现有的稀疏算法和大多数基于 BEV 的算法,并且在跟踪任务上也表现良好。

2024-04-23 17:36:39 1359

原创 【多模态融合】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird‘s-Eye View Representation

自动驾驶系统上往往部署了多个传感器,例如,Waymo 的自动驾驶汽车有 29 个摄像头、6 个雷达和 5 个激光雷达。不同的传感器提供互补信号:例如,摄像头捕获丰富的语义信息,LiDAR 提供准确的空间信息,而雷达提供即时速度估计。因此,多传感器融合对于准确可靠的感知具有重要意义。

2024-04-18 18:32:51 853

原创 【多模态融合】FUTR3D: A Unified Sensor Fusion Framework for 3D Detection

上海期智研究院、复旦大学、CMU、清华大学、MIT、Li Auto无。

2024-04-15 18:07:46 1016 1

原创 【3D目标检测】MonoCD: Monocular 3D Object Detection with Complementary Depths

在本文中,作者建议增加深度的互补性来缓解该问题。这里的互补性是指这些预测不仅以高精度为目标,而且具有不同的误差标志。为此,提出了两种新颖的设计。首先,考虑到上述耦合现象,添加了一个新的深度预测分支,该分支利用来自整个图像的全局且有效的深度线索而不是局部线索来降低深度预测的相似性。它依赖于一幅图像中的所有对象大致位于同一平面上的全局信息。其次,为了进一步提高互补性,作者建议充分利用多个深度线索之间的几何关系来实现形式上的互补,利用同一几何量的错误可能对不同分支产生相反影响的事实(达到一个负负为正的效果~)

2024-04-09 00:58:18 964

原创 【3D目标检测】Object as Query: Lifting any 2D Object Detector to 3D Detection

因此,作者提出一种新颖的方法,即多视角2D物体引导的3D物体检测器(MV2D),旨在将任何2D物体检测器提升到多视角3D物体检测。通过利用2D物体检测方法的进步,这些方法可以生成高质量的2D边界框来定位图像空间中的物体,MV2D能够将这些检测转换为后续3D检测任务的参考,使用这些检测作为动态查询有效地定位3D空间中的物体,克服了以前方法的限制。

2024-04-01 19:13:48 676

原创 【3D目标检测】Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors

作者发现在某些情况下(例如远距离区域),流行的2D对象检测器比最先进的3D检测器更为可靠。为了提升基于查询的3D对象检测器的性能,论文提出了一种新的查询生成方法QAF2D。此方法的核心思想是利用2D检测的高可靠性来辅助3D检测,以提高后者的性能。

2024-03-25 20:06:58 751 1

原创 【Pycharm学习】解决Python Console中文乱码的问题

Pycharm中的Python Console中文乱码问题

2024-03-20 13:34:33 353 2

原创 【多模态融合】DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

本文贡献:(1)第一个系统研究深度特征对齐对3D多模态检测器的影响(2)提出InverseAug 和LearnableAlign 来实现深度特征级对齐,从而实现准确且稳健的3D 对象检测器;(3)DeepFusions 在 Waymo 开放数据集上实现了最先进的性能

2024-03-18 19:41:08 1100

原创 【指标原理】CNN和ViT的FLOPs、参数量计算

FLOPs(Floating Point Operations)是浮点运算次数的缩写,其计算包括所有的浮点数加法、减法、乘法和除法运算。在深度学习领域,FLOPs特别用来量化一个神经网络模型进行一次前向传播所需的浮点运算数量,这对于评估模型的计算效率和资源需求非常有用。

2024-03-14 16:59:06 1861 1

原创 【3D目标检测】UniMODE: Unified Monocular 3D Object Detection

在这项工作中,提出了一种名为 UniMODE 的统一单目 3D 物体检测器,其中包含多种精心设计的技术,可以解决统一 3D 物体检测中观察到的许多挑战。所提出的检测器在 Omni3D 基准上实现了 SOTA 性能并呈现出高效率。进行了大量的实验来验证所提出的技术的有效性。然而,该检测器的局限性在于其对未见数据场景的零样本泛化能力仍然有限。未来,作者希望继续研究如何通过扩大训练数据等策略来提高UniMODE的零样本泛化能力。

2024-03-11 12:33:51 1229 5

原创 【基础原理】卷积计算公式(n-k+2p)/s+1的理解

对于卷积计算问题,我们可以简化一下,只考虑一个维度上的计算,毕竟特征图算的时候,无非尺寸就是平方倍关系。

2024-03-07 18:33:24 222

原创 【模型架构】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

这一工作通过证明Transformer可以在重要的物体检测(区域级别识别任务)和语义分割(像素级别识别任务)评测集上相比此前所有的卷积网络方法取得显著提升,来让学界和业界意识到Transformer模型将会取代卷积网络,成为视觉骨干网络的新主流。

2024-03-06 13:38:36 747

原创 【多模态融合】VirtualPainting:通过虚拟点和距离感知数据增强来解决 3D 对象检测的稀疏性

近年来,多模态方法出现了显着增长,这些方法利用相机衍生的特征来装饰原始 LiDAR 点云,以提高对象检测性能。然而,作者发现这些方法仍然难以解决 LiDAR 点云数据固有的稀疏性问题,这主要是因为稀疏分布对象的相机衍生特征丰富的点较少。作者提出了一种创新方法,涉及使用相机图像生成虚拟 LiDAR 点,并使用从基于图像的分割网络获得的语义标签来增强这些虚拟点,以解决此问题并促进稀疏分布的对象的检测,特别是那些被遮挡或被遮挡的对象。

2024-03-05 23:26:18 808 2

原创 【学术工具】Notion3.1.0中文汉化教程——以Mac为例,Win系统可参考

将下载好的app.zip解压,放在Resources文件夹中,下载的app.asar替换原本的app.asar。注意先关闭Notion,然后打开访达-右键Notion.app,点击显示包内容。点击Contents,进入到Resources文件夹。顶部的菜单栏没有汉化,只汉化了程序内部。打开Notion即可。

2023-12-15 15:41:52 3910 5

原创 【学术资源】如何利用IEEE Collabratec免费升级Overleaf Premium(过程详细、操作简单)

如何利用IEEE Collabratec免费升级Overleaf Premium

2023-11-19 11:33:39 1584 5

原创 科研学术的写作环境搭配(LaTeX+VSCode+Sumatra PDF/Skim)Win/Mac通用

科研学术的写作环境搭配(LaTeX+VSCode+Sumatra PDF/Skim)Win/Mac通用

2023-01-26 16:16:58 2932 4

原创 【深度学习】Pytorch框架的入门简易代码模板及解析

【深度学习】Pytorch框架的入门简易代码模板及解析

2023-01-18 22:35:39 1462 3

原创 解决用summary.py打印模型结构时报错AttributeError: ‘NoneType‘ object has no attribute ‘size‘

解决用summary.py打印模型结构时报错AttributeError: 'NoneType' object has no attribute 'size'

2023-01-15 20:45:48 2455 3

原创 解决YOLO v5的AttributeError: Can‘t get attribute SPPF on module models. common的问题

问题描述:在运行YOLOv5的detect.py程序时候,出现了以下错误提示AttributeError: Can‘t get attribute SPPF on module models. common from D://yolov\yolov5-5.0\models\common.py解决方法:在GitHub中下载YOLOv6,打开文件找到models文件夹:在models文件夹中找到common.py,打开后使用查找SPPF关键词,找到文件中SPPF类,将下列代码与之替换: clas

2021-10-24 10:14:26 25187 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除