目录
1 pytorch基础练习
PyTorch是一个python库,它主要提供了两个高级功能:
- GPU加速的张量计算
- 构建在反向自动求导系统上的深度神经网络
1.1 定义数据
一般定义数据使用torch.Tensor , tensor的意思是张量,是数字各种形式的总称
Tensor支持各种各样类型的数据,包括:
torch.float32, torch.float64, torch.float16, torch.uint8, torch.int8, torch.int16, torch.int32, torch.int64
创建Tensor有多种方法,包括:
ones, zeros, eye, arange, linspace, rand, randn, normal, uniform, randperm
1.2 定义操作
2. 定义操作
凡是用Tensor进行各种运算的,都是Function
最终,还是需要用Tensor来进行计算的,计算无非是
- 基本运算,加减乘除,求幂求余
- 布尔运算,大于小于,最大最小
- 线性运算,矩阵乘法,求模,求行列式
基本运算包括: abs/sqrt/div/exp/fmod/pow ,及一些三角函数 cos/ sin/ asin/ atan2/ cosh,及 ceil/round/floor/trunc
布尔运算包括: gt/lt/ge/le/eq/ne,topk, sort, max/min
线性计算包括: trace, diag, mm/bmm,t,dot/cross,inverse,svd 等
2 螺旋数据分类
下面代码是下载绘图函数到本地
引入基本的库,然后初始化重要参数
初始化 X 和 Y。 X 可以理解为特征矩阵,Y可以理解为样本标签。 结合代码可以看到,X的为一个 NxC 行, D 列的矩阵。C 类样本,每类样本是 N个,所以是 N*C 行。每个样本的特征维度是2,所以是 2列。
在 python 中,调用 zeros 类似的函数,第一个参数是 y方向的,即矩阵的行;第二个参数是 x方向的,即矩阵的列下面结合代码看看 3000个样本的特征是如何初始化的。
2.1 构建线性模型分类
这里对上面的一些关键函数进行说明:
使用 print(y_pred.shape) 可以看到模型的预测结果,为[3000, 3]的矩阵。每个样本的预测结果为3个,保存在 y_pred 的一行里。值最大的一个,即为预测该样本属于的类别
score, predicted = torch.max(y_pred, 1) 是沿着第二个方向(即X方向)提取最大值。最大的那个值存在 score 中,所在的位置(即第几列的最大)保存在 predicted 中。下面代码把第10行的情况输出,供解释说明
此外,大家可以看到,每一次反向传播前,都要把梯度清零
上面使用 print(model) 把模型输出,可以看到有两层:
- 第一层输入为 2(因为特征维度为主2),输出为 100;
- 第二层输入为 100 (上一层的输出),输出为 3(类别数)
从上面图示可以看出,线性模型的准确率最高只能达到 50% 左右,对于这样复杂的一个数据分布,线性模型难以实现准确分类。
2.2 构建两层神经网络分类
可以看到,在两层神经网络里加入 ReLU 激活函数以后,分类的准确率得到了显著提高。
3 问题理解
1、AlexNet有哪些特点?为什么可以比LeNet取得更好的性能?
AlexNet是一种深度卷积神经网络,是在2012年由Alex Krizhevsky等人提出的,在ImageNet图像分类挑战中取得了显著的突破。相比于之前的LeNet架构,AlexNet具有以下几个特点:
-
更大的网络规模:AlexNet比LeNet具有更多的卷积层和全连接层。它有5个卷积层和3个全连接层,相比之下,LeNet只有2个卷积层和3个全连接层。AlexNet能够学习到更复杂的特征表示和模式,更好地捕捉图像数据中的细节和语义信息。
-
使用了ReLU激活函数:相比于LeNet中的Sigmoid激活函数,AlexNet采用了更加简单高效的ReLU(Rectified Linear Unit)激活函数。ReLU在计算上更加高效,并且能够缓解梯度消失问题,有助于网络更快地收敛和学习更复杂的特征。
-
使用了Dropout正则化:为了减少过拟合,AlexNet引入了Dropout正则化技术。Dropout在训练过程中随机地将一些神经元的输出置为零,从而减少神经元之间的依赖关系,增强了网络的泛化能力。
-
使用了局部响应归一化(LRN):AlexNet在网络的前几个卷积层中引入了局部响应归一化(LRN)操作。LRN能够增强局部神经元的活动,抑制相邻神经元的响应,并且对于激活函数的没用部分进行抑制。
AlexNet在ImageNet图像分类挑战中以约16%的错误率夺得冠军,比第二名的模型低10%左右,引领了深度学习图像分类的发展。
2、激活函数有哪些作用?
-
引入非线性:激活函数引入了非线性变换,使得神经网络可以学习和表示更加复杂的模式和特征。
-
提供网络的非线性表示能力:激活函数的非线性特性使得神经网络可以处理并学习非线性关系,从而能够适应更加复杂的数据分布和任务。
-
梯度传播:激活函数通过对输入值进行非线性变换,有助于梯度的传播和反向传播算法的有效运行。梯度是神经网络中用于训练参数的重要信息,激活函数的合适选择可以避免梯度消失或梯度爆炸的问题,使得网络能够更好地进行训练和参数更新。
-
输出范围控制:激活函数可以对神经元的输出进行范围控制,限制其数值范围在一定的区间内。这可以防止网络输出过大或过小,帮助网络更好地进行学习和收敛。
3、梯度消失现象是什么?
梯度消失是指在神经网络的训练过程中,网络的较低层(靠近输入端)的权重更新非常缓慢甚至停滞,导致这些层的参数几乎没有得到有效更新,从而使得这些层难以学习到有效的特征表示。
4、神经网络是更宽好还是更深好?
如果只能在网络的宽度和深度之间选择一个,一般的倾向是更深的网络。这是因为相比于更宽的网络,更深的网络通常更有利于学习更复杂的特征表示和模式。
5、为什么要使用Softmax?
Softmax函数的使用可以将网络的输出转化为概率分布,方便多类别分类任务的预测和决策过程,同时提供了可微分的损失函数用于训练。它在神经网络中的应用广泛,特别适用于多类别分类问题。
6、SGD 和 Adam 哪个更有效?
SGD(随机梯度下降)和Adam(自适应矩估计)是两种常用的优化算法,用于训练神经网络中的参数。对于小规模的简单模型和数据集,SGD可能足够有效,并且具有较低的计算开销。但是对于更复杂的模型、大规模数据集或对收敛速度和优化效果有更高要求的情况,Adam可能是一个更好的选择,由于自适应学习率的调整,Adam通常能够更快地收敛到较好的结果。