别来这个网址-CSDN博客

原创 python的Vscode调试

调试并不是一个困难的过程。对我本人而言，从最早学习C语言时使用的Visual Studio时便已经开始使用，只要会打断点、单步执行即可。后来转到Java，使用Idea时也没什么问题。究其根本，是这两个的集成开发环境过于强大，许多东西都帮我免去配置的步骤了。但是后来我开始学习深度学习，使用vscode来写python，情况发生了一些变化。我突然不会调试了。开始使用最传统的添加print语句来进行测试。再后来，同门师兄告诉我有pdb这个东西，可以拿来在命令行进行调试。

2024-05-15 16:29:25 987

原创如何用AMD显卡部署模型/进行推理

如何是用A卡进行部署、推理

2024-04-03 17:16:19 1315

原创 ConceptFusion 论文翻译

构建三维环境地图对于机器人导航、规划和与场景中的物体进行交互来讲至关重要。大多数现有的集成语义概念与三维地图的方法局限于封闭集合的情况：它们只能对一组在训练时预定义的概念进行推理。此外，这些地图只能使用类别标签或者文本提示进行查询。基本上是开放集的，可以进行超出封闭概念集的推理；本质上是多模态的，可以对3D地图进行多样化的查询，包括语言、图像、音频和3D几何，所有这些都可以协同工作。

2023-09-07 20:51:09 363

原创 python计算机视觉编程第9章图像分割

图割（Graph Cut）是图像处理领域中的一种基本技术，用于分割图像或者其他类型的图形。它的基本思想是将图像表示成一个图（图论中的概念），其中图的节点代表图像中的像素或者其他感兴趣的区域，图的边则代表节点之间的关系。图割的主要应用之一是图像分割，即将图像中的像素分成若干个不同的区域或物体。这在计算机视觉领域中有广泛的应用，比如目标检测、图像编辑、医学图像分析等。图割算法的基本原理是通过在图上定义一个能量函数（或成本函数），然后通过最小化这个能量函数来找到一个图的切割，将图分成若干部分。

2023-08-27 13:06:54 188

原创 python计算机视觉编程第六章图像聚类

试想一下，如果给一张图如下，要求对这张图中的点分类，你会怎么进行呢？我们当然可以认为所有的点都只有一个种类，毕竟他们本身只有坐标不同，也可以左右分成两个大类，也可以四个角落划分成四类，这一切都取决于最初定的分类个数，而这就是k均值聚类。所谓k，就是我们的目标要把数据划分为k个类。所谓聚类，就是向上面的例子一样，实现不给任何标签，让我们自己区随意分类我们要分类的话，肯定是在同一类中相似度越高越好。也就是说，在特征空间中，他们的距离（欧氏距离或者随便什么距离）整体而言是最近的。

2023-08-26 11:00:23 626

原创 python计算机视觉编程第五章多视图几何

多视图几何（Multiple View Geometry）是计算机视觉领域的一个重要概念，它涉及到从多个不同视角（角度）获取的图像中推断出物体的三维结构和相对位置关系。在现实世界中，我们通常通过不同的角度观察物体，然后通过这些不同的视角来理解物体的形状、位置和运动。多视图几何的目标就是从这些多个视图中恢复出物体的几何信息。主要内容有：三维重建、立体视觉、运动估计等。

2023-08-14 21:34:24 250

原创 Kosmos-2论文翻译

我们提出了KOSMOS-2,一个多模态大型语言模型(MLLM),使其具备感知对象描述(例如,边界框)和将文本与视觉世界感知的新能力。具体来说,我们将指代表达式表示为Markdown中的链接,例如“[text span](bounding boxes)”, （参考下面的图可以更好的理解这段话，作者注）其中对象描述是位置词元的序列。我们构建了大规模的具有视角信息的图像-文本对数据集(称为GRIT)与多模态语料库一起训练模型。

2023-08-09 17:03:23 362

原创 Python机器学习实战第四章照相机模型与增强现实

为了处理三维图像和平面图像之间的映射，需要在映射中加入照相机产生图像的投影过程，我们将讨论如何确定照相机的参数，以及在增强现实（AR）等方面的具体应用。

2023-08-08 18:24:14 125

原创 3D-LLM论文翻译

大规模语言模型(LLM)和视觉语言模型(VLM)在多个任务上被证明效果显著,如常识推理。但是,这些模型并没有建立在真实的3D物理世界上,后者涉及更为丰富的概念,如空间关系、语用性、物理学、布局等。在这项工作中,我们提出将3D世界注入大规模语言模型,并引入一整套新的3D-LLM。具体来说,3D-LLM可以接受3D点云及其特征作为输入,并执行各种3D相关任务,包括字幕、密集字幕、3D问答、任务分解、3D定位、3D辅助对话、导航等。通过设计三种提示机制,我们能够收集超过30万条涵盖这些任务的3D语言数据。

2023-08-03 20:25:42 359

原创 Language Models are General-Purpose Interfaces论文翻译

基础模型由于在广泛的下游应用中的有效性而受到广泛关注。尽管在架构方面存在很大的收敛（注：convergence，不是很理解这句话），但大多数预训练模型通常仍然针对特定任务或模态开发。在这项工作中，我们提出使用语言模型作为通用接口，连接到各种基础模型。一系列预训练的编码器感知不同的模态（如视觉和语言），它们与充当通用任务层的语言模型相连接。我们提出了一种半因果语言建模目标，共同预训练接口和模块化编码器。我们综合了因果和非因果建模的优势和能力，从而将两者的优点结合起来。

2023-08-03 13:11:57 170

原创 Python计算机视觉编程第三章图像到图像的映射

单应性变换描述了平面上的两幅图像之间的映射关系。举个例子，缩放图像和旋转等都是单应性变换。x′y′1h11h21h31h12h22h32h13h23h33xy1或者说x′Hx这里的齐次坐标是依赖于尺度定义的（也就是上式中的1）。正常情况下定义点的坐标只需要定义(x,y)即可，但是此处我们增加了尺度定义可以更方便的定义一些变换。

2023-08-01 10:26:36 124

原创 python计算机视觉编程第二章局部图像描述子

本章将介绍两种局部图像描述子：Harris与SIFT。介绍完二者之后还会有一个实验。

2023-07-17 20:11:52 57

原创 pytorch转onnx以及部分算子对照表

pytorch到onnx的转化，以及部分算子对照表

2023-07-14 16:54:43 2554 1

原创 Python 计算机视觉编程第一章基本图像操作和处理

我简单看了一下这本书，大体上是一本实战类的书。此处我假定所有的读者都有一定的python基础，知道如何安装库，能大致看懂python语法。下面正式开始本书内容。

2023-07-06 15:39:35 171

原创机器学习实战第十三章利用PCA来简化数据

PCA的全称是Principal Component Analysis，也即主成分分析，说人话就是改变坐标系来让数据更好处理（降维）。为什么说改变坐标系就能够让数据更好处理呢？诸位既然参加过高考，学过高数，那么多半是学过直角坐标系与极坐标系，有的时候换个坐标就能让结果好很多。只不过极坐标是为了简化计算过程，而PCA是为了对数据降维。那么什么是降维呢？书上的例子就非常的直观：假设我们要对下图进行分类，那么得到的决策边界多半是这样子：那么我们是用了几个变量（也可以视作维度）来学习和描述决策边界的呢。

2023-07-04 15:25:20 104

原创西瓜书第五章神经网络

神经元的功能还是很简单的，接收一组输入，进行一些运算后输出。yf∑i1nωixi−θyfi1∑nωixi−θ有没有觉得这个公式很眼熟？我们在机器学习实战这本书的逻辑回归见过这个公式了，这个公式的实际意义可以这么理解：接受一组特征，将特征加权求和后减去阈值，然后根据最后所得的符号判断是正类还是负类。同样的，这里也有sigmoid函数，用于将输出结果约束到0-1之间感知机由两层神经元组成，一层接受外界的输入，被称为输入层；

2023-07-03 20:00:45 66

原创机器学习实战第十章 k均值聚类

k均值聚类什么是k均值聚类试想一下，如果给一张图如下，要求对这张图中的点分类，你会怎么进行呢？我们当然可以认为所有的点都只有一个种类，毕竟他们本身只有坐标不同，也可以左右分成两个大类，也可以四个角落划分成四类，这一切都取决于最初定的分类个数，而这就是k均值聚类。所谓k，就是我们的目标要把数据划分为k个类。所谓聚类，就是向上面的例子一样，实现不给任何标签，让我们自己区随意分类均值则是代表了一种方法，本文后面会介绍到具体实现前面我们已经了解了我们的目的是什么。下面我们来讲解如何实现。我们要分类

2023-06-29 17:21:50 255

原创机器学习实战第七章集成学习

所谓三个臭皮匠顶个诸葛亮，类似的思想就是集成学习的核心思想。集成学习是通过将多个弱学习器（Weak Learners）组合在一起，形成一个更强大的学习模型。成学习通过结合多个学习器的预测结果，可以达到比单个学习器更好的性能和泛化能力。

2023-06-27 13:30:02 326

原创机器学习实战第六章支持向量机

支持向量机（Support Vector Machine，SVM）是一种监督学习算法，用于进行二分类和回归分析。它的目标是找到一个最优的超平面（在二维空间中即为一条直线），将不同类别的样本点分隔开来，并且使得离超平面最近的样本点到该超平面的距离最大化。

2023-06-24 11:34:27 101

原创机器学习实战第五章 Logistic回归

书上讲解的顺序其实并不是很好，下面是打乱顺序的讲解。

2023-06-16 16:44:10 55

原创机器学习实战第四章朴素贝叶斯

在机器训练的过程中，我们是已知几个量，求另外一个不易获得的量。PA∣BPBPB∣A其实这个公式在概率论中已经学过了，下面开始正题。

2023-06-15 14:47:58 58

原创机器学习实战第三章决策树

简而言之，就是通过一步步的决策，来对某些事物分类（说着说最终做出什么选择）。

2023-06-10 16:27:58 62

原创机器学习实战第二章 k-近邻算法

所谓近朱者赤近墨者黑，有这么一种说法，我们只需要看一个人的朋友就能判断这个人怎么样。k-近邻算法的思想与此类似，我们只需要计算出给定点附近哪一种标签最多，即可据此判断该点属于哪个类。

2023-06-07 22:20:52 70

原创西瓜书第一二章

数据集：一批样本的集合样本空间：所有样本可能的取值的集合，例如对于人而言，通常情况下只有男女两种性别，那么{男，女}这个集合就是一个简单的样本空间特征向量：这是一个比较抽象的概念，意思是一组特征在样本空间中的坐标信息。为什么要这么做呢？我们从头开始讲吧。上面提到的样本空间只有一种特征也就是男女。但是正常情况下，一个事物是由非常多的特征组成的，比方说人除了性别之外还有身高体重等等。

2023-06-05 19:57:46 55

原创数字图像处理第十二章

在界定数字图像处理的覆盖范围时，包含了图像中各个区域的识别，本章将这些区域称为目标或模式。也就是说“目标识别”=“模式识别”

2023-06-01 20:44:35 205

原创数字图像处理第十一章

由于本章注重于如何存储，以后学习过程中多半不会用到该章节的知识，因此本章只做大概介绍，不再使用代码进一步说明。将一幅图像分割成多个区域后，分割后的像素集需要以一种合适于计算机进一步处理的形式来表示和描述。表示描述描述是较抽象地表示目标。好的描绘子都应尽可能对目标的大小、平移、旋转等不敏感，这样的描绘子比较通用。

2023-05-31 12:46:30 1421

原创数字图像处理第十章

采用的方法还是卷积，只不过采用的模板不同罢了。

2023-05-27 16:16:26 155

原创数字图像处理第九章

形态学主要应用是从图像中提取对于表达和描绘区域形状有意义的图像分量，为后续的目标识别等做准备；同时细化、像素化和修建毛刺等技术也常常应用于图像的预处理和后处理中。基本思想是用具有一定形态的结构元素去度量和提取图像中的对应形状来对图像分析识别。

2023-05-24 10:40:35 605

原创数字图像处理第八章

因为图像中的连续像素通常在比特平面上具有较高的相关性，相邻像素的比特位可能存在较多的重复信息，所以通过针对每个比特位的编码方法可以实现数据的压缩。如果组合后的索引在字典表中不存在，就将之前的索引序列的编码输出，并将新的索引序列添加到字典表中。Golomb编码的优势在于对于出现频率较低的整数，其编码长度相对较短，而对于出现频率较高的整数，其编码长度较长。当遇到新的编码时，解码器将利用字典表中已有的索引序列和新的索引来生成新的索引序列，并添加到字典表中。然后，遍历图像的颜色索引序列，并逐步构建新的索引序列。

2023-05-21 11:01:37 219

原创数字图像处理第六章

光有三原色，但是并非只需要三原色就能混合出所有的颜色，除非波长允许改变。然而这样一来就没有标准的三原色了。描述彩色光源质量的三个基本量：辐射、光强、亮度辐射：从光源流出的能量的总量，单位为瓦特光强：观察者从光源感知的能量总和的度量，单位为流明亮度：用于描述色彩强度，是一个主观概念，无法测量区别不同颜色特性的属性：亮度，色调，饱和度亮度：用于描述色彩强度，是一个主观概念，无法测量色调：光波混合中与主波长有关的属性，表示观察者感知的主要颜色。例如：房子是红的。

2023-05-06 16:29:01 88

原创数字图像处理第五章

用退化函数对退化过程建模，它和附加噪声选项一起，作用于输入图像f(x,y),产生一幅退化的图像g(x,y):其中gxyhxy★fxyηxyh为乘性噪声，η为加性噪声。

2023-05-05 23:03:53 557

原创数字图像处理第四章

首先，任何信号都可以用不同频率、不同振幅的正弦和余弦波叠加而成，这就是傅里叶级数的基本思想。其次，图像实际上是由像素点组成的数字矩阵，因此也可以用傅里叶级数展开成不同频率的正弦和余弦波的线性组合。那么，图像中的边缘、纹理等特征都对应着不同的频率分量，频率较高的分量对应着图像中的细节和纹理，而频率较低的分量则对应着图像中的大致轮廓和颜色分布。更进一步，在频率域中，频率是指信号在空间中波动的速率，通常以赫兹（Hz）为单位，表示每秒的波动次数。频率越高，波动越快，空间中的周期也越短。

2023-04-25 10:35:17 253

原创数字图像处理第三章

我们假设说皱纹是一个像素那么宽的线条，那么我们以皱纹上某一个像素为中心取3*3的大小，用这个3*3大小的范围中的平均颜色去覆盖掉这个像素，那么对皱纹上的每一个像素重复以上操作，就能去掉皱纹了。由于拉普拉斯是一种微分算子，它的应用强调图像中灰度的突变及降低灰度慢变化的区域，这将产生一幅把图像中的浅灰色边线和突变点叠加到暗背景中的图像，将原始图像和拉普拉斯图像叠加到一起的简单方法可以保护拉普拉斯锐化处理的效果，同时又可以复原背景信息。当然空间滤波器的大小不止可以是3*3，也可以5*5，3*5，看实际用途而定；

2023-03-22 10:36:12 235

m0_68784427的博客