- 博客(35)
- 收藏
- 关注
原创 第十章:OPENCV
在本例中标准差设为 5。read()方法解码并返回下一视频帧,第一个变量ret是一个判断视频帧是否成功读入的标志,第二个变量则是实际读入的图像数组。辅助函数draw_flow()会在图像均匀间隔的点处绘制光流矢量,利用到了OpenCV的绘图函数line()和cirle(),并用变量step控制流样本的间距。在OpenCV中,图像不是按照传统的RGB颜色通道,而是按照BGR顺序存储的。读取图像后,将其转化为灰度图像,函数integral()创建一幅图像,该图像每个像素值是原图上方和左边强度值相加后的结果。
2024-09-12 15:58:01 807
原创 第九章:图像分割
在图论中,图是由若干个节点和连接节点的边构成的集合。图割是将一个有向图分割成两个互不相交的集合,可以用来解决诸如立体深度重建、图像拼接和图像分割等计算机视觉方面的不同问题。图割的基本思想是:相似且彼此相近的像素应该划分到同一个区域。图割C(C是图中所有边的集合)的“代价”函数定义为所有割的边的权重求和相加,即:图割图像分割的思想是用图来表示图像,并对图进行划分以使割代价最小。在用图表示图像时,增加两个额外节点,即源点和汇点,并仅考虑那些将源点和汇点分开的割。
2024-09-11 14:40:17 1004
原创 第八章:图像内容分类
在分类方法中,最简单且用的最多的就是KNN(K近邻分类法),这种算法把要分类的对象与训练集中已知类标记的所有对象进行对比,并由k近邻对指派到哪个类进行投票。其弊端在于需要预先设定k值,k值的选择会影响分类的性能。此外这种方法要求将整个训练集存储起来,如果训练集非常大,搜索效率就很低。实现最基本的KNN形式非常简单。用下面的代码给定训练样本集和对应的标记列表定义一个类并用训练数据初始化,每次在进行分类时,用KNN方法就没有必要存储并将训练数据作为参数来传递。
2024-09-05 12:12:39 736
原创 第七章:图像搜索
在大型图像数据库上,CBIR(基于内容的图像检索)用于检索在视觉上具有相似性的图像。这样的返回的图像可以是颜色相似、纹理相似、图像中的物体或者场景相似。矢量空间模型是一个用于表示和搜索文本文档的模型,它基本可以应用于任何对象类型,包括图像。通过单词计数来构建文档直方图向量v,从而建立起文档索引。图像内容检索与文本检索类似,使用局部特征构建视觉词袋向量来表示图像。对图像提取若干个局部特征描述子,对这些描述子进行量化。聚类后的质心即为视觉单词。
2024-09-04 08:44:37 633
原创 第六章:图像聚类
该算法首先将特征向量距离最近的两个样本归并为一组,并在树中创建一个“平均”节点,将这两个距离最近的样本作为该“平均”节点的下的儿子节点。然后在剩下的包含任意平均节点的样本中寻找下一个最近的对,重复进行前面的操作。K-means的输入是一个有steps*steps行的数组,数组的每一行有3列,各列分别为区域块R、G、B三个通道的像素平均值。不足之处是,对于实际需要的聚类簇需要给出一个合适的阈值。为了可视化聚类树,可以画出树状图,这样在判定给出的描述子向量好坏以及在特征场合考虑什么是相似的时候提供有用的信息。
2024-08-30 08:33:56 988
原创 第五章:多视图几何
可以看到,它们的元素几乎相同,最后使用估计出的照相机矩阵投影这些三维点,最后绘制出投影后的结果,结果如下图,真实点用圆圈表示,估计出的照相机投影点用点表示。在这里,我们不考虑角度和距离。没有关于照相机的先验知识,会出现固有二义性,因为三维场景点X经过4×4的单应性矩阵H变换为HX后,则HX在照相机PH-1里得到的图像点和X在照相机P里得到的图像点相同。如果有一个场景的两个视图以及视图中对应图像点,那么根据照相机间的空间相对位置关系、照相机的性质以及三维场景点的位置,可以得到对这些图像点的一些几何关系约束。
2024-08-28 20:28:13 1039
原创 第四章:照相机模型与增强现实
但是,照相机与场景的变换分成了两个矩阵,GL_PROJECTION 矩阵和GL_MODELVIEW 矩阵GL_PROJECTION 矩阵处理图像成像的性质,等价于我们的内标定矩阵 K。首先使用齐次坐标表示这些点,然后使用一个投影矩阵来创建Camera对象将这些三维点投影到图像平面并执行绘制操作,上边的代码围绕这个随机的三维变量进行增量旋转的投影,使用rotation_matrix()函数创建了一个进行三维旋转的旋转矩阵,可以运行代码进行随机旋转并观察结果。下面的代码使用RQ因子分解的方法。
2024-08-27 14:40:30 2035
原创 第三章:图像到图像的映射
由于我们所有的图像是由照相机水平旋转拍摄的,因此我们需要一个比较简单的步骤:将中心图像左边或者右边的区域填充0,以便为扭曲的图像腾出空间。给定任意图像的标记点,通过将这些点进行三角剖分,然后使用仿射扭曲来扭曲每个三角形,我们可以将图像和另一幅图像的对应标记点扭曲对应。图像配准是对图像进行变换,使变换后的图像能够在常见的坐标系中对齐,让我们一起看一个对多个人脸图像进行严格配准的例子,使得计算的平均人脸和人脸表现的变化具有意义,这类配准中,实际上是寻找一个相似变换,在对应点之间建立映射。xs、ys(右眼);
2024-08-25 17:13:23 869
原创 第二章:局部图像描述子
W的宽度决定了在像素x周围的感兴趣区域。对于将一幅图像中的特征匹配到另一幅图像的特征,一种稳健的准则(同样是由Lowe提出的)是使用者两个特征距离和两个最匹配特征距离的比率。从上图可以看出,算法的结果存在一些不正确匹配,因为图像像素块的互相关矩阵具有较弱的描述性,而且描述符不具有尺度不变性和旋转不变性,算法中像素块的大小也会影响匹配的结果。通过实验对比可以发现sift相比Harris的检测效果更好,匹配效果也更好,sift匹配除去个别点,其余特征点匹配的都很正确,但是Harris匹配的特征点较为杂乱。
2024-08-23 18:23:10 927
原创 第一章:基本的图像操作和处理
1 PILPIL(Python Imagine Library Python,图像处理类库)提供了通用的图像处理功能以及大量有用的基本图像操作,比如图像缩放、裁剪、旋转、颜色转换等。如下介绍一个简单的例子来介绍PIL函数:from PIL import Imagepil_im = Image.open('1.jpg')pil_im.show()pil_im=pil_im.convert('L')pil_im.show()在这段代码中,利用PIL中的函数从图像格式的文件中读取数
2024-08-21 11:39:25 766
原创 第十四章:概率图模型
在信念传播算法中,一个结点仅在接收到来自其他所有结点的消息后才能向另一个结点发送消息,且结点的边际分布正比于它所接收的消息的乘积,即。通过利用乘法对加法的分配律,变量消去法把多个变量的积的求和问题,转化为对部分变量交替进行求积与求和的问题.简化了计算.吉布斯采样有时被视为MH算法的特例,它也使用马尔可夫链获取样本,而该马尔可夫链的平稳分布也是采样的目标分布p(x).若从结点集A中的结点到B中的结点都必须经过结点集C中的结点,则称结点集A和B被结点集C分离,C称为。
2024-08-18 12:55:42 954
原创 第十二章:计算学习理论
若存在大小为d的示例集能被H打散,但不存在任何大小为d+1的示例集能被H打散,则H的VC维是d.若对一个任意大小为3的示例集,不能进行对分,对大小为2的可以,则VC维为二可以被线性划分的集合,最大是3增长函数的上限:
2024-08-17 17:58:05 990
原创 第十一章:特征选择与稀疏学习
属性对当前学习任务有用的属性没什么用的属性,与当前的学习任务无关的属性从给定的特征集合中选择出相关特征子集的过程,(数据预处理过程),通常在实际的机器学习中都会有这个过程它们所包含的信息能从其他特征中推演出来,通常是无用的,但如果恰好对应了完成学习任务所需的“中间概念”,则该冗余特征是有益从初始的特征集合中选取一个包含了所有重要信息的特征子集,产生一个特征子集,去验证其他子集,然后看看哪个分类器的效果最好但很显然这种算法并不能达到最优使用决策树的公式进行评价。
2024-08-15 16:43:04 913
原创 第十章:降维与度量学习
一种常用的监督学习方法,没有显式的训练过程。此类学习技术在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理;相应的,那些在训练阶段就对样本进行学习处理的方法,称为“急切学习”给定测试样本x,若其最近邻样本为z,则最近邻分类器出错的概率就是x与z类别标记不同的概率,即·假设样本独立同分布,且对任意x和任意小正数,在x附近距离范围内总能找到一个训练样本;泛化错误率不超过贝叶斯最优分类器的错误率的两倍。
2024-08-11 11:28:04 688
原创 第九章:聚类
表示属性u上取值为α的样本数,表示在第i个样本簇中在属性u上取值为α的样本数,k 为样本簇数,则属性u 上两个离散值α与b之间的VDM距离。一种基于密度的聚类算法,特别适用于具有噪声的数据集和能够发现任意形状簇的情况。同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同.(聚类结果的“簇内相似度”高且“簇间相似度”低.)为剩余的核心点创建簇,如果一个核心点在另一个核心点的邻域内,则将它们放在同一个簇中。过程:从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇。
2024-08-10 17:11:30 1019
原创 第八章:集成学习
在RF中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分.这里的参数k控制了随机性的引入程度:若令k= d,则基决策树的构建与传统决策树相同;采用“重采样法”,可获得“重启动”机会以避免训练过程过早停止,即在抛弃不满足条件的当前基学习器之后,可根据当前分布重新对训练样本进行采样,再基于新的采样结果重新训练出基学习器,从而使得学习过程可以持续到预设的T轮完成.p2是两个分类器偶然达成一致的概率,它们可由数据集D估算。
2024-08-02 22:52:07 944
原创 第五章:神经网络
无论是DBN还是CNN,都是通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示后,用“简单模型”即可完成复杂的分类等学习任务.由此可将深度学习理解为进行“特征学习”(feature learning)或“表示学习”(representation learning).简单的两层感知机,输出层与输入层之间的一层神经元,被称为隐层或隐含层(hidden layer),隐含层和输出层神经元都是拥有激活函数的功能神经元.把许多个这样的神经元按一定的层次结构连接起来,就得到了神经网络.、
2024-07-31 21:20:07 1105
原创 deeplapv3
DeepLabv3使用的空洞卷积能够在提取全局上下文特征的同时,将feature map保持在比较大的尺寸上,从而保留空间细节信息。然而,由于DeepLabv3中最小的feature map尺寸一般为输入图像尺寸的1/4或1/8,导致较大的显存占用和计算量。这种现象在层数较多的网络中更为明显。空间金字塔池化(spatial pyramid pooling,简称SPP)模块,如下图所示,SPP模块能够通过池化操作提取丰富的上下文信息,DeepLabv3使用了类似的模块。
2024-07-29 19:24:33 198
原创 第七章:贝叶斯分类器
在“同父”(common parent)结构中,给定父结点a1的取值,则xg与a4条件独立.在“顺序”结构中,给定α的值,则y 与z条件独立.V型结构(V-structure)亦称“冲撞”结构,给定子结点x4的取值, x1与x2必不独立;贝叶斯网训练好之后就能用来回答“查询”(query),即通过一些属性变量的观测值来推测其他属性变量的取值.例如在西瓜问题中,通过已知变量观测值来推测待查询变量的过程称为“推断”(inference),已知变量观测值称为“证据”(evidence).
2024-07-27 09:54:27 957
原创 第六章:支持向量机
分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开.但能将训练样本分开的划分超平面可能有很多,如下图所示。使训练样本在特征空间中线性可分,即便貌似线性可分,也很难断定是否是因过拟合造成的。对于一般的损失函数和正则化项,优化问题的最优解h*(z)都可表示为核函数的线性组合。将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性可分。若一个对称函数所对应的核矩阵半正定,则它就能作为核函数来使用。若不存在一个能正确划分两类样本的超平面,怎么办?
2024-07-25 15:30:58 1038
原创 第四章:决策树
现实应用中,经常会遇到连续属性,由于连续属性的可取值数目不再有限,因此,不能直接根据连续属性的可取值来对结点进行划分.此时,连续属性离散化技术可派上用场.最简单的策略是采用二分法(bi-partition)对连续属性进行处理,这正是C4.5决策树算法中采用的机制[Quinlan,1993].分类边界的每一段都是与坐标轴平行的.这样的分类边界使得学习结果有较好的可解释性,因为每-段划分都直接对应了某个属性取值.但在学习任务的真实分类边界比较复杂时,必须使用很多段划分才能获得较好的近似,
2024-07-24 22:06:53 660
原创 第三章:线性模型
容易看出,OvR只需训练N个分类器,而OvO需训练N(N - 1)/2个分类器,因此,OvO的存储开销和测试时间开销通常比OvR更大.但在训练时,OvR的每个分类器均使用全部训练样例,而OvO的每个分类器仅用到两个类的样例,因此,在类别很多时,OvO的训练时间开销通常比OvR更小.至于预测性能,则取决于具体的数据分布,在多数情形下两者差不多.在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别.下图给出了一个二维示意图.训练一个分类器,该分类器把D中的。
2024-07-20 19:36:08 824
原创 第二章:模型评估与选择
把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”(error),学习器在训练集上的误差称为“训练误差”(training error)或“经验误差”(empirical error),在新样本上的误差称为“泛化误差”(generalization error)。通过实验测试来对学习器的泛化误差进行评估并进而做出选择,这就需要一个“测试集”(testing set)来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”(testing error)作为泛化误差的近似。
2024-07-18 16:38:51 1735
原创 第一章:绪论
利用经验改善自身的性能,将经验转化为数据随着该领域的发展,目前主要研究智能数据分析的理论和方法,并已成为智能数据分析技术的源泉之一。
2024-07-16 14:23:36 677
原创 Pytorch(下)
序列数据现在有一组序列数据 data 0,1,2,3. 在当预测 result0 的时候,我们基于的是 data0, 同样在预测其他数据的时候,也都只单单基于单个的数据. 每次使用的神经网络都是同一个 NN. 不过这些数据是有关联顺序的 , 就像在厨房做菜, 酱料 A要比酱料 B 早放, 不然就串味了. 所以普通的神经网络结构并不能让 NN 了解这些数据之间的关联处理序列数据的神经网络。
2024-07-14 12:15:06 859
原创 Pytorch(上)
Torch 自称为神经网络界的 Numpy, 因为他能将 torch 产生的 tensor 放在 GPU 中加速运算 (前提是你有合适的 GPU), 就像 Numpy 会把 array 放在 CPU 中加速运算. 所以神经网络的话, 当然是用 Torch 的 tensor 形式数据最好. 就像 Tensorflow 当中的 tensor 一样且numpy array 和 torch tensor可以自由转换。
2024-07-14 08:40:50 738
原创 第十二章:目标识别
通过移动该模板的中心(即增大x和y),以便w的中心访问f中的每个像素,可得到所有的相关系数y(x, y)。它由多层结构上相同的计算节点(神经元)排列而成,从而一层中的每个神经元的输出送到下一层的每个神经元的输入。描述的模式向量不同,不仅体现在不同的类之间,也体现在一个类的内部,类的可分程度很大程度上取决于所用的描绘子的选择,描述子对基于模式向量方法的目标识别的最终性能会有深刻的影响。树常用于层次排序,树的根表示整幅图像,不断细分,直到达到我们在图像上解析不同区域的能力的极限为止。
2024-07-12 21:12:19 789
原创 第11章:表示和描述
分割区域时,无论哪种情形,选择用来作为描绘子的特征都应尽可能地对大小、平移和旋转不敏感。本章中讨论的多数描绘子满足一种或多种这样的特性。
2024-07-11 22:34:45 1033
原创 第十章:图像分割
图像分割将图像细分为构成它的子区域或对象。分割的程度取决于要解决的问题。就是说,在应用中,当感兴趣的对象已经被分离出来时,就停止分割。图像分割算法一般是基于亮度值的两个基本特性之一:不连续性和相似性。
2024-07-11 20:40:54 735
原创 第九章:形态学图像处理
当b的原点位于(x,y)处时,用一个平坦的结构元b在(x, y)处对图像f的腐蚀定义为图像f中与b重合区域的最小值。闭操作同样使轮廓线更为光滑,但与开操作相反的是,它通常连接狭窄的间断是长细的鸿沟,消除小的孔洞,并填补轮廓线中的断裂。在二值图像中,正在被讨论的集合是二维整数空间(z^2)的元素,在这个二维整数空间中,集合的每个元素都是一个多元组,是一个黑色(或白色,取决于事先约定)像素在图像中的坐标(x,y)。灰度级图像的开操作和闭操作的表达式,与二值图像的对应操作具有相同的形式。
2024-07-07 21:02:39 977
原创 第八章:图像压缩
变换处理的目的是将每幅子图像中的像素进行相关分解,或用最少了的变换系数包含尽可能多的信息。这种方法通常被称为预测编码,它是通过消除紧邻像素在空间和时间上的冗余来实现的,它仅对每个像素中的新信息进行提取和编码。第一类词典编码的想法是企图查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现的字符串代替重读的部分,他的输出仅仅是指早期出现过的字符串的“指针”。当信息损失的程度可以表示成初始图像或输入图像以及先被压缩而后被解压缩的输出图像的函数时,就说这个函数是基于客观保真度准则的。
2024-07-07 16:01:42 665
原创 第六章:彩色图像处理
大部分的图像处理都是灰度图像,但现在彩色图像也开始逐渐受到关注。灰度图像处理比较简单,而彩色图像处理却要引入新的变量,使计算量大幅增加。
2024-06-30 15:34:51 1079
原创 第五章:图像复原与重建
图像增强主要是一个主观过程,而图像复原则大部分是一个客观过程。图像复原试图利用退化现象的某种先验知识来复原被退化的图像。因而,复原技术是面向退化模型的,并且采用相反的过程进行处理,以便恢复出原图像。如上图所示。退化过程中可以被模型化为一个退化函数和一个加性噪声项,处理一幅输入图像f (x,y)产生一幅退化图像g(x, y)。给定g (x,y)和关于退化函数H的一些知识以及外加噪声项(x, y),图像复原的目的是获得关于原始图像的近似估计。我们先假设H是一个等同的运算符,并且只处理由噪声引起的退化。
2024-06-29 23:07:07 1764
原创 第四章:频率域滤波
任何周期函数都可以表示为不同频率的正弦和或余弦和的形式,每个正弦和/或余弦和乘以不同的系数(现在称这个和为傅里叶级数)。非周期的函数(曲线是有限的情况)也可以用正弦/或余弦乘以加权函数的积分来表示。在这种情况下的公式就是傅里叶变换。单变量连续函数fx)的傅里叶变换F(u)定义为等式:反变换定义为单变量离散函数f(r)(其中x=0,1,2...,m-1)的傅里叶变换由以下等式给出:同样。给出F(u),能用反DFT来获得。
2024-06-28 23:34:00 720
原创 数字图像处理
图像是一个二维的亮度函数f(x,y),x,y是空间坐标,幅值f是该点的灰度或亮度。数字图像是指图像在空间坐标和亮度的数字化,由有限的元素组成,每一个元素都有一个特定的位置和幅值,这些元素称为图像元素。数字图像处理则是指使用计算机来处理这些数字图像。与ps这种处理不同,ps只是剪辑一个图形,而数字图像处理针对的是数字图像(由像素组成),是一种可以流水线的工作。与计算机视觉紧密相关。
2024-06-19 16:35:07 568
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人