深度学习--机器学习相关（2）

最新推荐文章于 2024-10-04 14:58:48 发布

在下小天n

最新推荐文章于 2024-10-04 14:58:48 发布

阅读量1.3k

点赞数 22

分类专栏：深度学习文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/m0_63860007/article/details/141887815

版权

深度学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1.适应性矩估计

适应性矩估计(Adaptive Moment Estimation,Adam)是一种可以代替传统的梯度下降 (SGD 和 MBGD) 的优化算法。Adam算法结合了适应性梯度算法和均方根传播的优点。

Momentum 在学习机器学习时是很可能遇到的，是动量的意思。动量不是速度和学习率，应该说是类似于加速度。

AdaGrad（适应性梯度算法）

适应性梯度算法的特点在于：独立地调整每一个参数的学习率。在SGD 中，所有的参数都是用相同的学习率η,而AdaGrad 的特点就是可以独立地调整每一个参数的学习率。AdaGrad 给每一个参数都设置独立的学习率，让梯度大的参数的学习率较小，梯度小的学习率较大，来加快模型的收敛速度。

RMSProp(均方根传播）

均方根传播的核心是通过指数衰减来丢弃很久以前的信息。这样的话，过去的信息对现在的影响就会不断减弱，保证学习率不会太小。

正则化与范式

正则化(Regularization) 是防止模型过拟合，增强模型的泛化能力。范式(Paradigm), 主要有3个： L0、L1和 L2。在机器学习领域中，范式是一种正则化的方法，正则化还有很多其他方法，比如：数据增强、Dropout 、Earlystopping。

1 . 正则化

在一个神经网络中，可以有成百上千的参数，但是并不是每一个参数都是有用的，不是每一个参数都可以体现数据的本质特征。神经网络学习数据的时候，能学到数据的本质，也能学到一些没什么意义的东西。例如，考试卷子上第3个选择题选B, 模型可以学到真正的知识，从而正确地推导这道题的答案，这个就是模型的泛化能力，也是想要的能力；模型也可能学到考试卷子的第3题就选B。这个就是过拟合情况，没学到本质。正则化就是帮助模型学习泛化能力，避免过拟合的手段。

2.L0 、L1 、L2 范式

(1)L0范式就是限制模型参数中非零参数的个数；

(2)L1 范式表示每一个参数绝对值的和；

(3)L2 范式表示每一个参数的平方和的开方值。

可以把范式看成附加到模型上的一些限制条件，让模型拘束着去学习泛化能力。L0 范式就是限制参数的非零个数，也可以说这是实现模型参数的稀疏化； L1 和 L2 会让模型的参数值较小。为什么较小参数值好呢?因为神经网络参数很多，没有限制的话，模型会尽可能地让所有的训练集都预测正确，这样往往是过拟合了，通过限制，让模型只能实现大多数

2.L0 、L1 、L2 范式

(1)LO 范式就是限制模型参数中非零参数的个数；

(2)L1 范式表示每一个参数绝对值的和；

(3)L2 范式表示每一个参数的平方和的开方值。

可以把范式看成附加到模型上的一些限制条件，让模型拘束着去学习泛化能力。LO 范式就是限制参数的非零个数，也可以说这是实现模型参数的稀疏化； L1 和 L2 会让模型的参数值较小。为什么较小参数值好呢?因为神经网络参数很多，没有限制的话，模型会尽可能地让所有的训练集都预测正确，这样往往是过拟合了，通过限制，让模型只能实现大多数样本的正确预测，这样就可以自发地避免一些对噪声数据、异常数据的学习，从而学到真实的正确的本质。

其他的正则化手段

数据增强一般在图像处理中，比如对图像做一些增强处理，常见的有：随机旋转、随机平移、随机剪裁，让数据集尽可能地丰富多彩一些。Dropout 就是随机让一些神经元失活，不起效果。Earlystopping是让模型提早停止训练。因为实现中不知道模型到底需要训练多少个 epoch才能刚好达到最强泛化能力，而又不过拟合，所以就这是一个Earlystopping,例如让验证集的预测准确率在5个epoch 内都不再提升了，就说明模型训练可以，然后把5个 epoch之前的模型文件作为最终的训练好的模型。

标签平滑正则化

标签平滑正则化(Label Smoothing Regularization,LSR)是通过向标签中添加噪声进行约束的方法。例如，一个图像分类问题，总共有3个类别，猫狗鸟，假设一个图片是狗，那么类别就是1。把这个标签经过one-hot 编码转换，变成[0,1,0]。LSR 就是平滑了 one-hot 编码，变成 [0.1,1,0.1]。

受限玻尔兹曼机(Restricted Boltzman Machine,RBM)的结构看起来就是两层的全连接层，但略有差别。

第一层(x 层)称为可见层，也有的称为输入层，第二层称为隐层或者隐藏层。RBM 之所以称为受限的，是因为同一层之间神经元没有连接。

注意：相比一般的全连接网络来说没有输出层。

RBM中权重是双向的，而一般神经网络中权重一般都是单向的、前向传播的。这是因为RBM 在训练的时候不仅仅包括前向传播和梯度下降，还多了一个反向传播的过程(此处的反向传播不是常说的反向传播梯度下降的反向传播)。RBM 是一种无监督学习的模型，并且发现 RBM 与 AutoEncoder 特别相近。而深度信念网络(Deep Belief Network,DBN)就是多个 RBM 的堆叠。训练过程主要分两步。先训练第一层和第二层，假装第三层不存在。训练好一、二层之后，固定住一、二层的权重值，然后训练二、三层，就这样把所有层训练完。最后整个DBN 一起训练，进行参数的微调。

RBM现在用的不是很多，RBM 与 AE 相近，而 DBN 与 Stack AE模型非常相近。

3.图片的RGB和 HSV

一张黑白图片是由像素点组成的。把每一个像素点上的黑白颜色划分成256个级别，0 是黑色，255是白色。这样，一张黑白图片就是一个矩阵，这个矩阵上每一个元素都对应一个像素的黑白强弱值。而在计算机看到的其实不是人眼看到的图片，而是这些表示图片颜色强度的矩阵。一张彩色图片同样是由像素点组成的，但是每一个像素点都是彩色的。任意一种颜色可以通过光的三原色(红色、绿色、蓝色，即Red、Green、Blue)的某种组合来实现，所以类似黑白强度矩阵，彩色图片可以分布三个大小相同的强度矩阵，分别表示红色强度、绿色强度和蓝色强度。这样组合起来就是一张任意色彩的彩色图片。

有时还会看到图片的HSV, 这是根据颜色的直观特性创建的，通俗来讲就是H表示色调,S 表示饱和度,V 表示明度。色调H 取值范围是0°~360°, 0°表示红色，120°是绿色，240°是蓝色，黄色60°,青色180°,品红300°,这个色调就是光谱色。饱和度S 的取值范围是0%～100%,是光谱色(色调)与白色混合的程度，假如饱和度为 0%,就是白色；如果是100%,就是光谱色。明度V 表示颜色明亮的程度，形容一种反射程度，如果是0,那么没有反射能力，图片是黑色的，如果是1,反射能力非常强，看起来白茫茫一片。

用Python 来读取一张图片的RGB矩阵

import cv2
import numpy as np
image_path = 'C:\\Users\\hedong\\Pictures\\Saved Pictures\\9.4.webp'  # 请确保这里有图片文件的完整路径和文件名
img = cv2.imread(image_path)

if img is not None:
    print(img.shape)  # 打印图片的维度
else:
    print("Error: Image not found or the path is incorrect.")

下面把 RGB转换为HSV

import cv2
import numpy as np
image_path = 'C:\\Users\\hedong\\Pictures\\Saved Pictures\\9.4.webp'  # 请确保这里有图片文件的完整路径和文件名
img = cv2.imread(image_path)
hsv_img=cv2.cvtColor(img,cv2.COLOR_RGB2HSV)#使用 cv2.cvtColor 函数将图片从 RGB 颜色空间转换到 HSV 颜色空间
print('色调最大值:',np.max(hsv_img[:,:,0]))
print('饱和度最大值:',np.max(hsv_img[:,:,1]))
print('明度最大值:',np.max(hsv_img[:,:,2]))
#使用 numpy 的 np.max 函数分别计算 HSV 图像中色调（Hue）、饱和度（Saturation）、明度（Value）通道的最大值。
#在图像处理中，HSV颜色空间的0、1、2分别代表色调（Hue）、饱和度（Saturation）和亮度（Value）。

如果使用Python 的 Matplotplot.pyplot.imshow来绘制 RGB 图片，会出现色差，这是因为读取cv2的图片是RGB 的，而plt.imshow 绘制图片是用BGR 图片，所以，可以这样转换：

#进一步转换
img=img[:,:,[2,1,0]]
#或者
img_hsv=cv2.cvtColor(img,cv2.COLOR_RGB2BGR)

在图像处理中，使用 `[:,:,:]` 这种索引方式访问图像数据时，这三个冒号 `:` 表示：

1. 第一个 `:` 表示图像的所有行。
2. 第二个 `:` 表示图像的所有列。
3. 第三个 `:` 表示图像的所有颜色通道。

4.网中网结构

神经网络中的神经网络(Network In Network,NIN)

通过增加1×1卷积和激活函数，来提升模型效果。之前的单个3×3卷积层称为Conv 层。而使用了网中网增加了两组1×1卷积层和激活函数的称为多层感知机(Multiple Layer Perceptron,MLP)。NIN 架构是一种经典的卷积神经网络设计，它通过在卷积层后面添加 1x1 卷积层来增加网络的非线性能力和表征能力。

in_channels：输入特征图的通道数。
out_channels：输出特征图的通道数，也就是卷积层的滤波器（卷积核）数量。
kernel_size：卷积核的大小，通常是一个整数或一个由两个整数组成的元组（对于正方形卷积核）。
stride：卷积操作的步长，它决定了卷积核移动的间隔。

padding：边缘填充的大小，用于控制输出特征图的尺寸

def NIN_block(in_chanels,out_chanels,kernel_sizeStride,padding):
    blk=nn.Sequential(
        nn.Conv2d(in_chanels,out_chanels,kernel_size,Sride,padding),
        nn.ReLU(),
        #模拟全连接层的多成感知机
        nn.Conv2d(out_chanels,out_chanels,kernel_size=1),
        nn.ReLU(),
        nn.Conv2d(out_chanels,out_chanels,kernel_size=1),
        nn.ReLU(),
    )
    return blk
#之前的卷积层
nn.Conv2d(in_chanels,out_chanels,kernel_size,Stride,padding),
#现在改成NIN
NIN_block(in_chanels,out_chanels,kernel_size,Stride,padding)