自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 相机坐标变换

相机外参由于是相机的位姿,它会随着相机的运动而改变,但是相机内参是不变的。相机外参的估计可以用视觉里程计,相机内参在相机出厂之后是固定的,有的生产厂商会告诉你相机内参,有时需要自己标定(如棋盘格标定法)。是由相机1的外参得到,这里要用到相机2的外参,camera2: $ (q_{w2}, q_{x2}, q_{y2}, q_{z2}, t_{x2}, t_{y2}, t_{z2})$,求得。是3 * 3矩阵,有9个量,而一次旋转只有3个自由度,这种表达方式是冗余的,四元数的表达更紧凑。

2024-09-13 16:20:00 1081

原创 论文阅读:(TPVFormer)Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

以视觉为中心的自动驾驶感知的现代方法广泛采用鸟瞰图(BEV)表示来描述3D场景。尽管它的效率比体素表示更好,但它很难用单个平面描述场景的细粒度3D结构。为了解决这个问题,我们提出了一种三透视图(TPV)表示,它伴随着BEV和两个额外的垂直平面。我们通过总和其在三个平面上的投影特征来对3D空间中的每个点进行建模。为了将图像特征提升到3D TPV空间,我们进一步提出了一种基于Transformer的TPV编码器(TPVFormer)来有效地获取TPV特征。

2024-08-22 22:52:08 893

原创 论文阅读:MonoScene: Monocular 3D Semantic Scene Completion

MonoScene提出了一个3D语义场景完成(SSC)框架,其中场景的密集几何形状和语义是从单个单目 RGB 图像中推断出来的。与SC文献不同,我们依靠2.5或3D输入,解决了2D到3D场景重建的复杂问题,同时联合推断其语义。我们的框架依赖于连续的2D和3D UNets,通过受光学启发的新型2D 3D特征投影来连接,并在强制执行空间语义一致性之前引入3D上下文关系。除了建筑贡献之外,我们还介绍了新颖的全局场景和local frustums 损失。

2024-08-22 17:16:57 1370

原创 论文阅读:GaussianBeV : 3D Gaussian Representation meets Perception Models for BeV Segmentation

鸟眼图(BEV)表示法被广泛用于从多视角摄像机图像中进行3D感知。它允许将不同摄像头的特征合并到一个公共空间,提供3D场景的统一表示。关键组件是视图转换器,它将图像视图转换为Bev。然而,基于几何或交叉注意的实际视图变换方法不能提供场景的足够详细的表示,因为它们使用3D空间的子采样,该子采样对于环境的精细结构的建模是非最佳的。在本文中,我们提出了一种新的将图像特征转换为BEV的方法–GaussianBeV,该方法通过在3D空间中定位和定位的一组3D GaussianBeV来精细地表示场景。

2024-08-13 12:17:34 1051

原创 论文阅读:GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

3D语义占有率预测旨在获得周围场景的3D细粒度几何和语义,是以视觉为中心的自主驾驶健壮性的重要任务。现有的场景表示方法大多采用体素等密集网格表示场景,忽略了场景占用的稀疏性和对象尺度的多样性,从而导致资源分配的不平衡。为了解决这一问题,我们提出了一种以对象为中心的表示方法来描述具有稀疏3D语义高斯的3D场景,其中每个高斯表示一个灵活的感兴趣区域及其语义特征。我们通过注意力机制从图像中收集信息,并迭代地提炼3D高斯图的属性,包括位置、协方差和语义。

2024-08-12 22:34:50 1070

原创 论文阅读:3D Gaussian Splatting for Real-Time Radiance Field Rendering

辐射场方法最近彻底改变了用多张照片或视频捕获的场景的新颖视角合成。然而,要获得高视觉质量,仍然需要训练和渲染成本高昂的神经网络,而最近更快的方法不可避免地要牺牲速度来换取质量。对于无界和完整的场景(而不是孤立的对象)和1080p分辨率的渲染,目前还没有一种方法可以达到实时显示速率。我们引入了三个关键元素,使我们能够在保持有竞争力的训练时间的同时获得最先进的视觉质量,并重要的是允许在1080p分辨率下进行高质量的实时(≥30 fps)新颖视图合成。

2024-08-11 22:57:30 619 1

原创 论文阅读:Deformable DETR: Deformable Transformers for End-to-End Object Detection

最近提出了DETR,以消除对象检测中对许多手工设计组件的需求,同时表现出良好的性能。然而,由于Transformer注意力模块在处理图像特征 map 方面的局限性,它存在收敛慢和特征空间分辨率有限的问题。为了缓解这些问题,我们提出了Deformable DETR,其注意力模块只关注参考周围的一小组关键采样点。Deformable DETR可以在训练时间减少10倍的情况下实现比DETR更好的性能(尤其是在小物体上)。对COCO基准的广泛实验证明了我们方法的有效性。

2024-07-28 21:52:28 297

原创 论文阅读:(DETR)End-to-End Object Detection with Transformers

我们提出了一种将目标检测看作集合预测(set prediction)问题的新方法。我们的方法简化了目标检测的流水线,有效地消除了许多需要手工设计的组件,如非极大值抑制算法或锚框(anchor)生成算法这类需要根据任务显式编码的先验知识。新框架的主要组成部分被称为DEtection TRansformer或DETR,包括一个通过二部图匹配进行唯一预测的基于集合的全局损失,以及一个Transformer编码器-解码器结构。

2024-07-27 22:39:58 322

原创 论文阅读:T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

提出了一种实用的开集目标检测模型T-Rex2。以往的基于文本提示的开集对象检测方法有效地封装了常见对象的抽象概念,但由于数据稀缺和描述性限制,难以实现稀有或复杂的对象表示。相反,视觉提示擅长通过具体的视觉例子来描述新奇的物体,但不能像文本提示那样有效地传达物体的抽象概念。认识到文本提示和视觉提示的互补优势和劣势,我们引入了T-Rex2,它通过对比学习在单个模型中协同这两个提示。T-Rex2接受各种格式的输入,包括文本提示、视觉提示以及两者的组合,因此它可以通过在两种提示模式之间切换来处理不同的场景。

2024-07-27 18:21:15 735

原创 论文阅读:Enhanced 3D Urban Scene Reconstruction and Point Cloud Densification using Gaussian Splatting

尽管基于大规模遥感图像的3D城市场景重建和建模对于数字孪生和智能城市等许多关键应用至关重要,但由于异构数据集和几何模型的不确定性,这是一个困难的任务。本文提出了一种基于高斯溅射的方法,用于3D城市场景建模和几何检索,贡献如下。首先,我们开发并实现了一种大规模3D城市场景建模的3D高斯溅射(3DGS)方法。其次,我们在提出的3DGS模型中设计了点云密集化方法,以提高城市场景3D几何提取的质量。

2024-07-20 21:57:42 1036

原创 【软件配置】不使用ROS系统,不进行编译,纯python环境配置rosbag,从而解析.bag文件

whl 下载地址:https://files.cnblogs.com/files/yunhgu/rosbag_cv_bridge.zip。

2024-07-20 17:19:46 513

原创 论文阅读:Target localization based on cross-view matching between UAV and satellite

QATM套壳 原理可直接去看,相当于做了一个应用匹配由无人飞行器(UAV)拍摄的遥感图像与具有地理定位信息的卫星遥感图像,从而确定由UAV捕获的目标对象的具体地理位置。其主要挑战在于,例如视角的剧烈变化、未知的方向等。许多先前的工作都集中在同源数据的图像匹配上。为了克服这两种数据模式之间的差异带来的困难,并在视觉定位中保持鲁棒性,本文提出了一种基于尺度自适应深度卷积特征的质量感知模板匹配方法,通过深入挖掘它们的共同特征。首先获取模板大小特征图和参考图像特征图。然后使用这两个获得的特征图来测量相似性。

2024-07-20 17:00:58 1358

原创 论文阅读:A Faster and More Effective Cross-View Matching Method of UAV and Satellite Images for UAV Geol

无人飞行器(UAV)近年来迅速发展,由于其操作便捷和强大的数据收集能力,逐渐成为遥感图像获取的主要平台。Alexander等人[1]使用无人机数据在热带雨林中定位树木。Amour等人[2]提出了一种基于深度学习的无人机图像中汽车检测方法。Deng等人[3]将基于无人机的多光谱遥感应用于精准农业。无人机应用涉及众多领域,如摄影测量、农业和地图制作[4-7]。然而,目前无人机的定位和导航主要依赖于GPS和GNSS等定位系统。如何在没有定位系统辅助的情况下实现无人机的自主定位和导航,是一个具有挑战性的任务。

2024-07-08 21:27:24 745 1

原创 论文阅读:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

这篇论文介绍了一种名为Swin Transformer的新型视觉Transformer架构,它能够有效地作为计算机视觉任务的通用骨干网络。Swin Transformer通过使用移位窗口(Shifted Windows)来计算自注意力(Self-Attention),从而解决了从语言领域到视觉领域的Transformer适应过程中遇到的挑战,如视觉实体尺度的大变化和图像像素的高分辨率。

2024-03-15 19:38:30 884 2

原创 论文阅读:VMamba: Visual State Space Model

卷积神经网络(CNNs)和ViTs是视觉表示学习的两个最受欢迎的基础模型。尽管CNNs在图像分辨率方面表现出显著的可扩展性,具有线性复杂度,但ViTs在拟合能力上超越了它们,尽管它们面临着二次方复杂度的挑战。仔细检查发现,。这一观察启发我们提出了一种新的架构,它继承了这些组件,同时提高了计算效率。为此,我们从最近引入的状态空间模型中汲取灵感,提出了视觉状态空间模型(VMamba),它在不牺牲全局感受野的情况下实现了线性复杂度。

2024-03-07 22:48:51 1459 1

原创 论文阅读:Segment Anything

在应用我们的解码器之前,我们首先在提示嵌入集合中插入一个可学习的输出token嵌入,它将在解码器的输出中使用,类似于[33]中的[CLASS]令牌。然后,token再次参与图像嵌入,我们将更新后的输出令牌嵌入传递给一个小的3层MLP,该MLP输出与放大的图像嵌入的通道维度相匹配的矢量。我们工作中的一个重要区别是,为可提示分割训练的模型可以在推理时通过充当更大系统中的组件来执行新的不同任务,例如,为了执行实例分割,可提示分割模型与现有的对象检测器相结合。以及(2)相同的结构,但使用表示“右下角”的学习嵌入。

2024-02-11 00:13:51 1189

原创 论文阅读:Self-conditioned Image Generation via Generating Representations(RCG)

提出的表示条件图像生成(Representation-Conditioned image Generation,RCG),一个简单而有效的框架用于自适应图像生成。简而言之就是无附加条件生成相同分布的图片。

2024-01-30 00:24:29 1083

原创 论文阅读:ReCo Retrieve and Co-segment for Zero-shot Transfer

目前的语义分割面临着如下的挑战:(1)成本:收集人工像素级注释非常昂贵,限制了完全监督方法的使用;(2)灵活性:监督方法通常用有限的预定义类别列表进行训练,并且缺乏识别稀有或新类别(例如由自由形式文本描述的类别)的能力;(3)部署的复杂性:非监督分割方法极大地降低了标注成本,但仍然表现出要求标记的示例为预测分配名称的不便;

2024-01-30 00:23:13 1180

原创 操作系统知识要点

操作系统期末复习总结

2023-02-13 15:39:41 379

原创 使用python实现一个简陋的上位机

使用python实现的简易(简陋)上位机,仅支持最最最基本的功能

2022-09-09 19:00:00 2792

原创 【美赛备赛】word编辑公式全攻略

本篇博客是作者在备战22年美赛的时对word编辑公式的资料收集和总结,基本上涵盖了在word环境下进行公式编辑的方方面面。

2022-02-15 22:19:04 3609

原创 简易数据库学习环境的搭建

本博客主要介绍了在Windows下如何搭建一个简易的数据库学习环境

2022-02-13 22:11:21 1174

原创 傅里叶变换的推导

本篇博客从傅里叶级数出发,经过一系列的公式变换得到了傅里变换公式。

2022-02-10 21:36:25 2930

原创 概率论常用公式

概率论常用公式

2021-11-12 17:01:51 4099

原创 严蔚敏《数据结构(C语言版)》第四章 纯C实现

这个系列文章我将用纯c语言来实现严书上的内容。文章中所有代码在博主电脑上均能正常运行。ps:严蔚敏的数据结构是目前我读过的最恶心的有关技术类的书籍

2021-10-10 16:38:16 192

原创 数值分析笔记(二):线性方程组的数值解法

直接法追赶法对于系数阵为三对角阵A=[b1c1a2b2c2a3b3c3⋱⋱⋱an−1bn−1cn−1anbn]A=\begin{bmatrix}b_1 & c_1 \\a_2 & b_2 & c_2\\& a_3 &b_3 &c_3 \\& & \ddots & \ddots &\ddots \\& & & a_{n-1} &b_{n-1} & c_{n-1}\\&am

2021-10-04 09:41:41 229

原创 数值分析笔记(一):方程求根

文章目录根的搜索迭代法收敛性的判断收敛速度加速迭代Newton法(切线法)Newton法的改进Newton下山法根的搜索逐步搜索在给定区间[a,b][a, b][a,b]上从左端点x=ax=ax=a开始,按照步长hhh一步一步取f(x0)f(x_0)f(x0​)和f(x0+h)f(x_0+h)f(x0​+h),如果发现成立f(x0)⋅f(x0+h)≤0f(x_0)\cdot f(x_0+h)\leq 0f(x0​)⋅f(x0​+h)≤0则在区间[x0,x0+h][x_0,x_0+h][x0​,x

2021-10-01 15:24:38 731

原创 流畅的python读书笔记④:文本和字节序列

人类使用文本,计算机使用字节序列。——Esther Nam 和 Travis Fischer“Character Encoding and Unicode in Python”

2021-09-23 21:54:52 132

原创 严蔚敏《数据结构(C语言版)》第三章 纯C实现

这个系列文章我将用纯c语言来实现严书上的内容。文章中所有代码在博主电脑上均能正常运行。ps:严蔚敏的数据结构是目前我读过的最恶心的有关技术类的书籍

2021-09-17 21:12:02 306

原创 严蔚敏《数据结构(C语言版)》第二章 纯C实现

这个系列文章我将用纯c语言来实现严书上的内容。文章中所有代码在博主电脑上均能正常运行。ps:严蔚敏的数据结构是目前我读过的最恶心的有关技术类的书籍

2021-09-09 17:23:32 388

原创 从零开始的爬虫生涯(五):re正则表达式详解

文章目录前言正则表达式简介示例1. re库的函数1.1 match和search1.2 findall和finditer前言工欲善其事,必先利其器。这篇文章我们将一起学习处理爬取到数据的一种强大的工具:正则表达式。正则表达式简介正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模

2021-09-04 22:46:35 349

原创 流畅的python读书笔记③:字典和集合

字典这个数据结构活跃在所有 Python 程序的背后,即便你的源码里并没有直接用到它。——A. M. Kuchling

2021-08-19 20:57:28 243 1

原创 从零开始的爬虫生涯(四):通过API爬取B站弹幕

文章目录前言需要爬取的页面展示思路分析1.页面源码分析2.爬虫思路爬虫代码1.开发环境2.代码分解(1).引入库(2).获取每张图片的地址(3).保存图片到指定文件夹3.整体代码爬取结果前言这篇文章我们将借助b站的api来爬取B站视频的弹幕相关文章请看从零开始的爬虫生涯(二):爬取小姐姐的照片②从零开始的爬虫生涯(三):爬取小姐姐的照片③需要爬取的页面展示思路分析1.页面源码分析首先我们先查看页面源码发现他的图片url全都放在一个类为entry-content的div块中,那么

2021-08-03 17:58:32 1830 1

原创 流畅的python读书笔记②:序列构成的数组

文章目录2.1 内置序列类型按存放数据类型分类按是否能被修改来分类2.2 列表推导和生成器表达式2.2.1 列表推导和可读性代码2-1 把一个字符串变成Unicode码位的列表声明2.1 内置序列类型按存放数据类型分类容器序列——存放的是它们所包含的任意类型的对象的引用,有:list(列表)、tuple (元组)和 collections.deque (双向列表)。扁平序列——存放具体的值,显然,扁平序列更加紧凑,但是其仅能存放如字符、字节、数值等基础数据类型,有:str(字符串)、bytes(字

2021-08-01 22:18:22 223

原创 流畅的python读书笔记①:python数据类型

文章目录特殊的方法——魔术方法(magic method)一摞python风格的纸牌代码分析操纵纸牌的一些实例声明特殊的方法——魔术方法(magic method)Python 解释器碰到特殊的句法时,会使用特殊方法去激活一些基本的对象操作,这些特殊方法的名字以两个下划线开头,以两个下划线结尾(所以特殊方法又称dunder-method。例如__getitem__)。这些python内置的特殊方法可以使用户自己创建的对象完成与python默认函数的交互(最常见的特殊方法就是创建类时使用的__init_

2021-07-31 12:18:13 111

原创 从零开始的爬虫生涯(三):爬取小姐姐的照片③(网站已停用)

文章目录前言思路分析1.页面源码分析2.爬虫思路爬虫代码1.开发环境2.代码分解(1).引入库(2)获取每个页面的地址(3).获取每张图片的地址(4).保存图片到指定文件夹3.整体代码爬取结果前言从这篇文章开始,我们将通过连续的几篇文章来爬取某妹网(url :https://imoemei.com/)的所有小姐姐照片。借这个例子我们一起学习简易的python爬虫。前面的文章请看从零开始的爬虫生涯(一):爬取小姐姐的照片①从零开始的爬虫生涯(二):爬取小姐姐的照片②思路分析1.页面源码分析经

2021-07-23 22:08:25 256 1

原创 从零开始的爬虫生涯(二):爬取小姐姐的照片②(网站已停用)

文章目录前言需要爬取的页面展示思路分析1.页面源码分析2.爬虫思路爬虫代码1.开发环境2.代码分解(1).引入库(2).获取每张图片的地址(3).保存图片到指定文件夹3.整体代码爬取结果前言从这篇文章开始,我们将通过连续的几篇文章来爬取某妹网(url :https://imoemei.com/)的所有小姐姐照片。借这个例子我们一起学习简易的python爬虫。前一篇文章请看从零开始的爬虫生涯(一):爬取小姐姐的照片①需要爬取的页面展示思路分析1.页面源码分析由于上次我们已经把一个页面的小

2021-07-22 10:02:25 311 1

原创 从零开始的爬虫生涯(一):爬取小姐姐的照片①(网站已停用)

文章目录前言需要爬取的页面展示思路分析1.引入库2.读入数据总结前言从这篇文章开始,我们将通过连续的几篇文章来爬取某妹网(url :https://imoemei.com/)的所有小姐姐照片。借这个例子我们一起学习简易的爬虫思路。需要爬取的页面展示思路分析1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warn

2021-07-21 09:27:04 267 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除