programming python豆瓣_Programming Computer Vision with Python (学习笔记二)

本文介绍了Python科学计算库NumPy的基础知识,包括N维数组对象ndarray的重要属性和构造方法,以及如何进行基本运算。此外,还探讨了图像处理库Matplotlib的使用,包括画图和灰度变换,如直方图均衡化,展示了如何增强图像对比度。
摘要由CSDN通过智能技术生成

首先介绍跟图像处理、显示有关两个库:NumPy和Matplotlib,然后介绍增强图像对比度的实现原理。

NumPy

NumPy是Python用于科学计算的基础库,提供了一些很有用的概念,如:N维数组对象,可用于表示向量、矩阵、图像数据等,另外还包含了线性代数及其运算函数。NumPy的数组对象在本书示例中会被大量使用,它可以作诸如矩阵乘法、变换、向量乘法和正态化等运算,我们通过这些运算来实现图像对齐、图像分类、图像扭转等。

这是一个基础库,通常不需要额外安装。

N维数组在NumPy中对应的数据类型是ndarry,有时使用别名array(即numpy.array)。但要注意的是,它与Python的内置类型array是两回事,不要混淆,Python内置array类型只处理一维数组,其功能远不及ndarray。ndarray中的所有元素的存储类型是一样的,下面对ndarray一些重要的属性进行说明:

ndarray.ndim

数组维度

ndarray.shape

对于一个n×m矩阵,shape返回元组(n,m)

ndarray.size

数组的所有元素个数

ndarray.dtype

数组元素的数据类型

ndarray.itemsize

数据中每个元素的类型长度(单位byte)

ndarray.data

包含数组所有元素的buffer,通常我们只是使用数组下标来获取元素的值

构造

用Python的数组表示来构造ndarray,很直观:

In [3]: import numpy as np

In [5]: a = np.array([[0,1,2],

[3,4,5]])

In [6]: a.shape

Out[6]: (2, 3)

In [7]: a.ndim

Out[7]: 2

In [8]: a.dtype.name

Out[8]: 'int64'

In [9]: a.itemsize

Out[9]: 8

In [10]: a.size

Out[10]: 6

In [11]: type(a)

Out[11]: numpy.ndarray

构建dnarray时可以指定元素的类型:

In [12]: b = np.array([0,1,2],dtype=int16)

In [13]: b.itemsize

Out[13]: 2

我们最常用的是想把一幅图像转为np.array表示,而PIL的Image类可以处理大部分的图像格式,所以从Image转为np.array很有用,如:

from PIL import Image

import numpy as np

im = np.array(Image.open('Selection_001.png'))

注:Image对象之所以能直接转为ndarray类型,是因为Image类实现了ndarray的data和shape等接口。

其它一些有用的构造方法:

np.zeros( (n, m) ) 构建n乘m数组,其中元素初始化为0

np.ones( (n, m) ) 同上,但元素初始化为1

np.empty( (n, m) ) 同上,但元素不作初始化

np.arange([start,] stop[, step,], dtype=None) 构建1维数组,元素的值从start到stop,增加步长为step

In [75]: np.arange(5)

Out[75]: array([0, 1, 2, 3, 4])

In [76]: np.arange(5, 10)

Out[76]: array([5, 6, 7, 8, 9])

In [77]: np.arange(5, 10, 2)

Out[77]: array([5, 7, 9])

np.linspace( start, stop, item_count ) 构建1维数组,元素从start到stop,元素个数为item_count,所以元素的增加步长是自动计算的: (to - from) / (item_count - 1)

In [63]: np.linspace(5,10,2)

Out[63]: array([ 5., 10.])

In [64]: np.linspace(5,10,3)

Out[64]: array([ 5. , 7.5, 10. ])

In [65]: np.linspace(5,10,4)

Out[65]: array([ 5. , 6.66666667, 8.33333333, 10. ])

In [66]: np.linspace(5,10,5)

Out[66]: array([ 5. , 6.25, 7.5 , 8.75, 10. ])

基本运算

两个数组的+-<>*运算,作用于两个数组相对应位置的元素,结果是一个新数组:

In [22]: a

Out[22]:

array([[1, 2, 3],

[4, 5, 6]])

In [23]: b

Out[23]:

array([[ 1., 1., 1.],

[ 1., 1., 1.]])

In [24]: a + b

Out[24]:

array([[ 2., 3., 4.],

[ 5., 6., 7.]])

In [25]: a - b

Out[25]:

array([[ 0., 1., 2.],

[ 3., 4., 5.]])

In [26]: a < b

Out[26]:

array([[False, False, False],

[False, False, False]], dtype=bool)

In [30]: c

Out[30]:

array([[1, 1, 1],

[2, 2, 2]])

In [31]: a * c

Out[31]:

array([[ 1, 2, 3],

[ 8, 10, 12]])

数组A与B的乘积:A.dot(B)或np.dot(A, B)。

对+=和*=等运算符产生的结果,直接修改调用数组自身,而不是返回新数组。

其它一些有用的运算操作:np.sin, np.cos, np.exp(指数), np.sqrt(开方)等。

下标访问

In [45]: a

Out[45]:

array([[ 0, 1, 2, 3],

[10, 11, 12, 13],

[20, 21, 22, 23],

[30, 31, 32, 33],

[40, 41, 42, 43]])

In [46]: a[2,3] #访问行下标为2,列下标为3的元素

Out[46]: 23

In [47]: a[0:5, 1] #访问行下标从0到5(不含),列下标为1的元素

Out[47]: array([ 1, 11, 21, 31, 41])

In [50]: a[:, 1] #访问所有行,但列下标为1的元素

Out[50]: array([ 1, 11, 21, 31, 41])

In [51]: a[1:3] #访问行下标从1到3(不含)的元素

Out[51]:

array([[10, 11, 12, 13],

[20, 21, 22, 23]])

In [52]: a[-1] #访问最后一行

Out[52]: array([40, 41, 42, 43])

In [2]: x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]: x[1:7:2] #指定起始、结束(不含)以及步长

Out[3]: array([1, 3, 5])

变形

展开为一维数组:

In [53]: a = np.array([[1,2],[3,4]]) #2乘2数组

In [54]: a

Out[54]:

array([[1, 2],

[3, 4]])

In [57]: b = a.ravel() #展开为1维数组,返回新数组

In [58]: b

Out[58]: array([1, 2, 3, 4])

In [59]: b.reshape(2, 2) #变形为2乘2数组,返回新数组

Out[59]:

array([[1, 2],

[3, 4]])

In [60]: b.resize(2, 2) #变形为2乘2数组,直接修改本身

In [61]: b

Out[61]:

array([[1, 2],

[3, 4]])

有了以上的了解,我们来看看实际的应用例子。先读取一张图片,把它转为ndarray类型,再看其数组属性:

In [88]: from PIL import Image

In [89]: import numpy as np

In [91]: im = np.array(Image.open('Selection_001.png')) #用PIL.Image读取图像,并转为ndarray数组

In [92]: print im.shape, im.dtype

(240, 568, 3) uint8 #表示图像数据240行,568列,颜色通道数3,以uint8类型存储

In [93]: im_l = np.array(Image.open('Selection_001.png').convert('L')) #转为灰度图像

In [94]: print im_l.shape, im_l.dtype

(240, 568) uint8 #灰度图像没有颜色通道信息

矩阵

class numpy.matrix(data, dtype=None, copy=True)

从data中构造一个矩阵对象,data可以是ndarray也可以是字符串,若data为ndarray,则copy表示是否复制data来构造。

In [4]: np.matrix('1 2; 3 4')

Out[4]:

matrix([[1, 2],

[3, 4]])

In [5]: np.matrix([[1, 2], [3, 4]])

Out[5]:

matrix([[1, 2],

[3, 4]])

还可以使用以下两个函数来构造矩阵:

numpy.mat(data, dtype=None)或numpy.asmatrix(data, dtype=None),两个只是名字不一样,都相当于numpy.matrix(data, copy=False)。

矩阵类提供了一些矩阵运算的方便的接口,如:

getT:返回转置矩阵

getI: 返回可逆矩阵的逆矩阵

getH:返回共轭转置矩阵

getA:返回矩阵的ndarray

Matplotlib

Matplotlib是一个用于科学计算及制图方面的强大的开源库,支持很多常见的图形图表,如:

虽然Matplotlib功能很强大,我们可能只是用到它很少的一些接口,比如画图像的轮廓和灰度图像的柱状图。

安装Matplotlib

sudo apt-get install python-matplotlib

pylab和pyplot

为简化画图工作,Matplotlib的pyplot模块提供了与MATLAB相似的接口,并且可以跟IPython配合使用。

需要注意的是,书中的代码示例使用的是Matplotlib.pylab这个模块:

from PIL import Image

from pylab import *

im = array(Image.open('empire.jpg')) #读图并转为ndarray

imshow(im)

根据Matplotlib官网上的pyplot和pylab的关系说明得知:使用pylab只是为了import时方便起见,import pylab相当于import了pyplot和numpy模块中大部分的接口,虽然有些例子还这样用,但已经不被推荐使用,而是推荐使用pyplot。另外,pyplot模块内置了状态机,它能自动生成必要的图例和坐标轴等信息,可以简化画图代码。

灰度变换(GrayLevel Transformation)

对图像进行灰度变换的目的是为了:

改善画质,使图像更加清晰

有选择地突出图像中感兴趣的特征或抑制图像中某些不需要的特征,使图像与视觉响应特性相匹配

改变图像的直方图分布,增加图像对比度

最简单的灰度变换就是反转颜色,示例:

In [88]: from PIL import Image

In [89]: import numpy as np

In [90]: import matplotlib.pyplot as plt

In [97]: im = np.array(Image.open('cover.png').convert('L'))

In [98]: plt.gray() #不加的话,显示出来的图像会有颜色

In [100]: plt.imshow(im)

In [102]: plt.show()

In [103]: im2 = 255 - im

In [104]: plt.imshow(im2)

In [105]: plt.show()

反转前:

反转后:

直方图均衡化(histogram equalization)

灰度变换的一个很有用的例子就是直方图均衡化,这里的直方图指图像的灰度直方图,因为我们要示例的是灰度图像,每个像素用8bit表示,值从0到255,共有256个灰度级。但通常的图像像素值,都没有完全占用这256个级别,很多像素的灰度值集中在一起,这样导致灰度之间的变化不明显,如果我们把图像的灰度级按比例拉伸到256级,可以使得像素灰度级差距增大,从而使图像看起来更清晰,对比度更强一些。直方图均衡化就是为了达到这个目的,均衡化后的图像,像素落在每个灰度级上的个数是相等的。而且原图像的第i个灰度累积和(即落在[0,i]区间所有像素个数)与均衡化后的第i个灰度累积和相等,即原图像累积和按0到255的比例进行变换。所以下面将使用累积分布函数(cumulative distribution function,简称cdf)。

直方图数据的统计将借助numpy.histogram函数来获得:

numpy.histogram(a, bins=10, range=None, normed=False, weights=None, density=None)

传入数组及直方图的柱的数目(柱也可由X轴点的系列指定),统计落在各个柱区间的元素的个数。

参数:

a: 数组,需要扁平化

bins: bin指的是直方图中的“柱”,取值对应X轴上的区间[x,y),此参数可选,传入int表示等宽柱的数量,也支持非等宽柱的设置

range:(float, float),可选,指定柱的最低和最高值

normed:bool,可选,NumPy1.6弃用,建议使用density参数

density:bool,可选,False表示函数返回的是落在每个柱区间的元素的数量,若为True,函数返回的是由`概率密度分布函数`对每个柱计算出来的值

返回值:

hist:ndarray,如density参数所说

bin_edges:柱的边界数组,length(hist) + 1,即X轴上柱之间的分割点形成的数组

示例:

In [8]: a = np.array([0,1,2,3,4])

In [9]: np.histogram(a, 5)

Out[9]: (array([1, 1, 1, 1, 1]), #a中落在以下各个区间的元素的个数

array([ 0. , 0.8, 1.6, 2.4, 3.2, 4. ])) #柱的边界(区间),自动均分

In [10]: np.histogram(a, 5, density=True)

Out[10]: (array([ 0.25, 0.25, 0.25, 0.25, 0.25]), #概率密度分布

array([ 0. , 0.8, 1.6, 2.4, 3.2, 4. ]))

而累积和的计算需要用到numpy.cumsum函数:

numpy.cumsum(a, axis=None, dtype=None, out=None)

示例:

In [21]: a = np.array([1,2,3,4,5,6])

In [22]: np.cumsum(a)

Out[22]: array([ 1, 3, 6, 10, 15, 21])

现在来写一个函数实现直方图均衡化:

import numpy as np

from PIL import Image

import matplotlib.pyplot as plt

def histeq(im,nbr_bins=256):

imhist,bins = np.histogram(im.flatten(),nbr_bins,density=True) #对每个元素求概率密度

cdf = imhist.cumsum() #对概率密度数组求累积和

cdf = 255 * cdf / cdf[-1] #累积和变换到0-255区间

im2 = np.interp(im.flatten(),bins[:-1],cdf) #线性插值

return im2.reshape(im.shape), cdf #还原图像维度

im = np.array(Image.open('hist-sample.jpg').convert('L'))

im2,cdf = histeq(im)

plt.gray()

plt.subplot(221) #2行2列,第1个图

plt.imshow(im)

plt.subplot(222) #2行2列,第2个图

plt.hist([x for x in im.flatten() if x < 250], 128)

plt.subplot(223)

plt.imshow(im2)

plt.subplot(224)

plt.hist([x for x in im2.flatten() if x < 250], 128)

plt.show()

效果对比如下,上面的是原图及直方图,下面的是均衡化后的图及直方图:

明显看出,均衡化后的图对比度要更强一些。

多图像平均法(Averaging Images)

多图像平均法是一个用于降噪和美化图片的简单方法。假设多张图像具有相同尺寸,一个计算方法就是把所有图像的数据相加起来再除以图像数目从而得到图像的平均值。这个操作使用ndarray的+=和/=运算符就可以完成。

另一个实现的方法就是使用numpy.mean()函数,放在后面再讲。

小结

下一个笔记内容讲图像的主成分分析(PCA)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目标检测(Object Detection)是计算机视觉领域的一个核心问题,其主要任务是找出图像中所有感兴趣的目标(物体),并确定它们的类别和位置。以下是对目标检测的详细阐述: 一、基本概念 目标检测的任务是解决“在哪里?是什么?”的问题,即定位出图像中目标的位置并识别出目标的类别。由于各类物体具有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具挑战性的任务之一。 、核心问题 目标检测涉及以下几个核心问题: 分类问题:判断图像中的目标属于哪个类别。 定位问题:确定目标在图像中的具体位置。 大小问题:目标可能具有不同的大小。 形状问题:目标可能具有不同的形状。 三、算法分类 基于深度学习的目标检测算法主要分为两大类: Two-stage算法:先进行区域生成(Region Proposal),生成有可能包含待检物体的预选框(Region Proposal),再通过卷积神经网络进行样本分类。常见的Two-stage算法包括R-CNN、Fast R-CNN、Faster R-CNN等。 One-stage算法:不用生成区域提议,直接在网络中提取特征来预测物体分类和位置。常见的One-stage算法包括YOLO系列(YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5等)、SSD和RetinaNet等。 四、算法原理 以YOLO系列为例,YOLO将目标检测视为回归问题,将输入图像一次性划分为多个区域,直接在输出层预测边界框和类别概率。YOLO采用卷积网络来提取特征,使用全连接层来得到预测值。其网络结构通常包含多个卷积层和全连接层,通过卷积层提取图像特征,通过全连接层输出预测结果。 五、应用领域 目标检测技术已经广泛应用于各个领域,为人们的生活带来了极大的便利。以下是一些主要的应用领域: 安全监控:在商场、银行
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值