NNDL作业六 卷积

一、概念

自己的语言描述“卷积、卷积核、特征图、特征选择、步长、填充、感受野”。

  卷积     卷积核       特征图

卷积,咋卷的?  

        让我们从数学的角度来看看,y(t)=\int_{-\infty }^{+\infty }f(\tau )g(t-\tau )d\tau\tau(/tau):读tao),这是卷积式子 ,对\tau积分得到关于t的数学表达式。

这里我们结合图形加以举例来理解卷积

第一个图是f(t)-t图,用来表示进食情况

第二个图是g(t)-t图,用来表示消化情况

f(t)-t图中,横坐标代表了进食的时间点,纵坐标代表了进食量

g(t)-t图中,横坐标依是时间,纵坐标就是你吃进去的食物到了某个时间还剩多少比例(吃多吃少都按图示这个消化比例来)

在12点,张三吃了一碗米饭,现在问:13点,这碗米饭(胃里)还剩多少?

还剩:12点吃的饭量*食物消化比=f(12)*g(13-12)

当然了,13点这个时间,胃里不可能只有一碗米饭,那么我们现在假设10点,张三还吃了大碗宽面,如下图:

那么到了13点,大碗宽面还剩多少?

还剩:f(10)*g(13-10)

所有13点这个时间一共剩:饭+面=f(10)*g(13-10)+f(12)*g(13-12)

是不是尝到上面这个概念公式y(t)=\int_{-\infty }^{+\infty }f(\tau )g(t-\tau )d\tau那么一点味道了,现在我们来玩抽象的,看下图:

张三\tau点吃了点东西,问t点还剩多少?

秒了,剩f(\tau)*g(t-\tau)

看下图,f(t)-t里面(1)是刚好吃,所以消化那里对应g(t)-t的0时刻(1),此时f(t)-t里面(2)那个时候的进食,消化就对应g(t)-t里面的(2),每一条连线都意味着一对f(\tau)和g(t-\tau)的相乘,所以最后把所有的值加起来,就是我们要的式子\int_{0}^{t}f(\tau )*g(t-\tau )d\tau

        所以假设张三可以一直吃,所以想知道某个时间剩多少,就要求和\sum_{-\infty }^{+\infty }f(\tau )g(t-\tau ),换个表达就是y(t)=\int_{-\infty }^{+\infty }f(\tau )g(t-\tau )d\tau

        (这里不重要,可跳)另外,针对卷积为什么要叫卷积。我看了很多视频博主的解释,他们的解释是:翻转。把g函数翻转一下,见下图,是不是规律很多

       但是,这不是一个完全有关图形的卷积,所以只能看出好看了一点,含有数字表示的像素图形(就是那种n*n的矩阵那种)做卷积,将所属g函数所指代部分翻转,会直接明了(不详讲,感兴趣可搜搜了解)

        读到这,你是否也会小问号,这和平时接触的卷积有什么关系,别急,先别急。

        我们接触的卷积大都是用来用来做图像识别,所以一般接触的都是图形:那么就让张三穿越成赛博朋克世界名画,但是他开始的时候,只是开局一张普普通通的电脑像素图,突然某一日,跳出来一个3*3或者5*5的名叫卷积核的家伙成为他的左膀右臂追随武装他,怎么武装?以3*3为例见下图

         简而言之,将卷积核完全的覆盖在原图(张三)上,对应位置相乘得到一个结果,将所有对应位置得到的结果相加,得到一个特征值(世界名画碎片),详细过程见图片右上角的计算。只是碎片还不够,所以我们把卷积核整体右移一位,再进行上述计算,再得到一个特征值,直到卷积核遍历整个原图,得到整幅世界名画,我们将此名画命名为特征图。

        所以问题来了,这和上面的f函数、g函数有什么关系?

这里我粗略地把他们做一个类比

原图好比是f函数(类似点有:都是原始的,一个被g函数改变,一个被卷积核改变)

卷积核好比是g函数(类似点有:他作用在谁谁谁身上来改变原物,以得到一个新事物)。

        为什么是粗略地?因为我是从网络上搜罗各个大神的教学,没有看教材,教材是不可能看教材的,一辈子不可能,每次我看教材的时候,我就觉得橡皮好有趣,铅笔也好有趣。

总结(以下总结是GPT生成,不明白的点,可以看看上面的描述试着去理解):

  1. 卷积:卷积是两个变量在某范围内相乘后求和的结果。在图像处理中,卷积是通过两个函数(卷积核)和输入图像生成第三个函数的一种数学算子。它表征函数 f 与 g 经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。
  2. 卷积核:卷积核也被称为滤波器,是一个小的矩阵,用于处理输入图像的特定区域。在图像处理中,给定输入图像,输入图像中一个小区域中像素加权平均后成为输出图像中的每个对应像素,其中权值由一个函数定义,这个函数就是卷积核。
  3. 特征图:特征图是由图像提取出的特征值组成的方图。在卷积神经网络中,每个卷积层都包含输入特征图(Input)和输出特征图(Output)。它们具有高度、宽度、深度三个维度和通道数、批量尺寸两个参数(维度)。

特征选择、步长、填充、感受野

  (先把图放这,方便看)

        步长:是卷积核在原图上滑动一次的跨度。如步长为1就是卷积核计算一次后向右移动一个像素,步长为2则是移动两个像素。如果你读了上面的卷积核怎么工作的,就能知道他每次移动了几个步长,也能更轻松理解,不难。

        填充:指的是为了方便保持图像大小不变,或者保留边缘特征而在边缘处增加像素点的操作。操作就像下面这样:

         

卷积后的特征图是一定比原图小的,例如上面这个5*5被3*3卷后就成3*3的了,上面7*7被3*3卷后成5*5的了(这个可以看上面的图),但是给他填充后,得到的就和原图一样大,这个应该也可以轻松理解。

        感受野:可以理解为卷积核的大小。就像人眼看东西是聚焦一部分一部分的,每次卷积就相当于“看”一部分,卷积的大小会影响一次“看”的范围,这个范围(和卷积核大小相同)就是感受野。这个应该也好理解,不解释。

        特征选择

先看组各大教材里面的经典

原图

卷积核

特征图

        原图整体上看起来像个人,但是局部一看,各不相干,好比一块粗糙的璞玉,虽然很贵重,但是不比雕琢之后,更显艺术。

        这个卷积核很有特色,3*3一共9个像素格,每个格的值都是1/9,按照卷积操作,他覆盖在原图后,会把以一个点为中心,加之周围八个点都分别乘以1/9,然后把各个点得到的结果加起来,处理后得到的图片,通俗来讲:给每一个被卷的点附以相同的特征,借此特征加以融合,形成“你中有我,我中有你”的特征图,因此看起来,像素点之间就不是相差十万八千里了,这种处理叫平滑处理,卷积核是平滑卷积核,这就是卷积核特征选择起到的好处。

附:《huahuagongzi》可以让她名噪一时,但是图像处理,使其成为艺术

不言而喻了吧【邪笑】(早看早得,以后要有什么麻烦我就来删了)

回到卷积特征选择,我们再来分析一下这个图

        这个卷积核特征选择是从左上到右下,所以最后的特征图里,左上到右下,特征很明显——数字越大,说明越满足卷积核的特征,所以原图从右上到左下,不太满足卷积核特征选择(左上到右下),最后得到的特征图里的值,就小一点

        所以卷积核的选择,影响着最终特征图的生成,影响人工智能对图像的识别,见下:

        很能说明,在特征选择的时候,选择具备原图代表性特点的卷积核,对图像的识别,成功概率多大吧。在实际的训练过程中,肉眼很难抉择用什么卷积核,所以我们要用反向传播的方式,去调整卷积核里的权重,让卷积核不断适应原图的特征,从而让输出的特征图更满足原图特征

        所以,特征选择:指从原始特征中挑选出一组最有代表性、分类性能好的特征。这样可以降低数据集的维度,并且优化系统的特定指标。可以使用不同的卷积核来进行不同偏向的特征选择。

二、探究不同卷积核的作用

 1. 图1分别使用卷积核\begin{pmatrix} 1 & -1 \end{pmatrix}​,\begin{pmatrix} 1\\ -1\\ \end{pmatrix}输出特征图

2. 图2分别使用卷积核\begin{pmatrix} 1 & -1 \end{pmatrix}​,\begin{pmatrix} 1\\ -1\\ \end{pmatrix}输出特征图

3. 图3分别使用卷积核\begin{pmatrix} 1 & -1 \end{pmatrix}​,\begin{pmatrix} 1\\ -1\\ \end{pmatrix}​,\begin{pmatrix} 1 &-1 \\ -1&1 \end{pmatrix}​ ,输出特征图 

4. 实现灰度图边缘检测、锐化、模糊

5. 总结不同卷积核的特征和作用。

        卷积核的主要特征:提取输入数据中的局部特征。它是通过在输入数据上滑动并计算局部区域的加权求和来工作的,这个加权和被用作该区域的一个特征表示。因此,卷积核可以提取出数据中的不同特征,例如边缘、纹理、角落等。

        卷积核的作用:通过对输入数据的每个像素进行卷积操作来提取特征。通过使用多个卷积核,可以提取出不同类型的特征,形成更加复杂的特征表示,进而提高模型的性能。

        不同的卷积核可以实现不同的效果。例如,Sobel卷积核可以用于边缘检测,Scharr卷积核也可以用于边缘检测,但比Sobel更加平滑。Laplacian卷积核用于检测图像中的边缘和角点,具有旋转不变性和尺度不变性。高斯卷积核则用于图像平滑,减少图像中的噪声和细节信息。梯度卷积核用于检测图像中的梯度信息,如水平和垂直方向的梯度。

总结:

        卷积能够提取特征的原理主要是基于卷积神经网络中的卷积操作。卷积是一种特殊的线性操作,通过将输入数据与一组卷积核进行卷积,可以提取出数据中的局部特征。

        具体来说,卷积核可以看作是一种滤波器,它在输入数据上滑动并计算局部区域的加权和。这个加权和被用作该区域的一个特征表示,因此可以提取出数据中的不同特征。通过使用多个卷积核,可以提取出多种类型的特征。

        卷积神经网络中的每一层都包含一组卷积核,这些卷积核被训练来提取输入数据中的特征。在训练过程中,网络通过反向传播算法不断调整卷积核的权重,使得它们能够更好地提取出输入数据中的特征。

        卷积神经网络中的卷积操作可以看作是一种特征提取器,它能够自动地学习和提取输入数据中的特征。这种能力使得卷积神经网络在图像分类、目标检测等计算机视觉任务中表现出色。通过将复杂的判断系统的运算法则变为一个个易于计算的卷积核,从而更方便地提取图像特征,完成对图像的分析与处理。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值