深度神经网络学习：使用tensorflow2.1识别手势0-5

最新推荐文章于 2022-03-03 22:17:59 发布

锌a

最新推荐文章于 2022-03-03 22:17:59 发布

阅读量1.5k

点赞数 1

分类专栏：计算机视觉：从0基础开始的奋斗历程文章标签：深度学习 tensorflow 神经网络图像识别 python

本文链接：https://blog.csdn.net/qq_43601378/article/details/107640827

版权

计算机视觉：从0基础开始的奋斗历程专栏收录该内容

35 篇文章 22 订阅

订阅专栏

标题

1.前言
2.训练过程
3 测试自己的图片
4.源码
- 4.1 训练
- 4.2 测试图片
5.总结
6.写给正在深度学习入门的你

1.前言

该项目是吴恩达深度学习第二课的课后作业，数据来源百度网盘，提取码：dvrc，请在开始之前下载好所需资料，本文参考自CSDN文章，由于是第一次训练神经网络，不足之处恳请大家指出。

2.训练过程

2.1 准备数据

数据模样如下，手势图片配上数字标签：
在这里插入图片描述

下载数据集和读取数据的代码后，先对代码进行处理。
首先将读入数据和、分为训练集和测试集，随后可以选择是否打乱数据集。
由于数据是64*64的图片，训练集1080张，测试集120张，这里我们将训练集X和测试集X分别拉伸为(12288,1080)和(12288,120),将训和测试的Y标签拉伸为一个维度(1080,)和(120,),随后进行归一化处理转换数据格式，最后将数据打包，让X数据和Y标签一一对应，并设置Batch大小为32（也可以尝试其他值，或许准确率更高）。

# 导入数据，分别为输入特征和标签
X_train_orig , Y_train_orig , X_test_orig , Y_test_orig , classes = tf_utils.load_dataset()

# 随机打乱数据（因为原始数据是顺序的，顺序不打乱会影响准确率）
# seed: 随机数种子，是一个整数，当设置之后，每次生成的随机数都一样（为方便教学，以保每位同学结果一致）
'''
np.random.seed(116)  # 使用相同的seed，保证输入特征和标签一一对应
np.random.shuffle(X_train_orig)
np.random.seed(116)
np.random.shuffle(Y_train_orig)
tf.random.set_seed(116)
'''

X_train_flatten = X_train_orig.reshape(X_train_orig.shape[0],-1) #每一列就是一个样本
X_test_flatten = X_test_orig.reshape(X_test_orig.shape[0],-1)
Y_train_flatten = Y_train_orig.reshape(-1) #每一列就是一个样本
Y_test_flatten = Y_test_orig.reshape(-1)
y_train = Y_train_flatten.T
y_test = Y_test_flatten.T
#归一化数据
x_train = X_train_flatten / 255
x_test = X_test_flatten / 255

# 转换x的数据类型，否则后面矩阵相乘时会因数据类型不一致报错
x_train = tf.cast(x_train, tf.float32)
x_test = tf.cast(x_test, tf.float32)

# from_tensor_slices函数使输入特征和标签值一一对应。（把数据集分批次，每个批次batch组数据）
train_db = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(32)
test_db = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(32)

2.2 初始化数据

这里我们选择构建3层神经网络，神经元分别为25，12，6。故w1,w2,w3的维度分别为(12288,25)，(25,12)，(12,6)，b的维度同理，选择截断正态分布随机初始化w，而b均置0。
设置好w和b后，设置学习率和循环次数，以及存储数据方便画图的列表。

# 生成神经网络的参数，12288个输入特征故，输入层为12288个输入节点；因为6分类，故输出层为6个神经元
# 用tf.Variable()标记参数可训练
# 使用seed使每次生成的随机数相同（方便教学，使大家结果都一致，在现实使用时不写seed）
w1 = tf.Variable(tf.random.truncated_normal([12288, 25], stddev=0.1, seed=1))
b1 = tf.Variable(tf.zeros([25]))
w2 = tf.Variable(tf.random.truncated_normal([25, 12], stddev=0.1, seed=2))
b2 = tf.Variable(tf.zeros([12]))
w3 = tf.Variable(tf.random.truncated_normal([12, 6], stddev=0.1, seed=3))
b3 = tf.Variable(tf.zeros([6]))

lr = 0.01  # 学习率为0.01
train_loss_results = []  # 将每轮的loss记录在此列表中，为后续画loss曲线提供数据
test_acc = []  # 将每轮的acc记录在此列表中，为后续画acc曲线提供数据
epoch = 1400  # 循环1400轮
loss_all = 0  # 每轮分34个step，loss_all记录34个step生成的34个loss的和

2.3 循环迭代

在这里选择两层循环嵌套，第一层为epoch级别的循环，第二层为batch级别的循环。

首先，在batch循环中，每次读入一组x_train和y_train，根据前向传播算出预测值y，由于是softmax所以输出一组概率，将标签y_转换为独热编码与y进行均方误差计算，得出loss值，随后使用tf的求导函数求出每一层的导数，最后更新参数。
在每一轮batch中都记录了loss值，将这些loss值加起来除以34（训练集共1080组数据，每32组一个batch，遍历完一次数据集需要34轮），得到一次迭代的平均loss，计入数组。
利用该轮迭代产生的新w和b对测试集进行计算，得出预测值，根据预测概率值找到最大的编号，与真实标签进行对比，正确置为1错误置为0，相加即可得正确数，随后算出准确度。

for epoch in range(epoch):  #数据集级别的循环，每个epoch循环一次数据集
    for step, (x_train, y_train) in enumerate(train_db):  #batch级别的循环 ，每个step循环一个batch
        with tf.GradientTape(persistent = True) as tape:  # with结构记录梯度信息
            y1 = tf.matmul(x_train, w1) + b1  # 神经网络乘加运算
            y1 = tf.nn.relu(y1) 
            y2 = tf.matmul(y1,w2)+b2
            y2 = tf.nn.relu(y2)
            y = tf.matmul(y2,w3)+b3
            y = tf.nn.softmax(y) # 使输出y符合概率分布（此操作后与独热码同量级，可相减求loss）
            y_ = tf.one_hot(y_train, depth=6)  # 将标签值转换为独热码格式，方便计算loss和accuracy
            loss = tf.reduce_mean(tf.square(y_ - y))  # 采用均方误差损失函数mse = mean(sum(y-out)^2)
            loss_all += loss.numpy()  # 将每个step计算出的loss累加，为后续求loss平均值提供数据，这样计算的loss更准确
        # 计算loss对各个参数的梯度
        grads3 = tape.gradient(loss,[w3,b3])
        grads2 = tape.gradient(loss,[w2,b2])
        grads1 = tape.gradient(loss, [w1, b1])

        # 实现梯度更新 w1 = w1 - lr * w1_grad    b = b - lr * b_grad
        w3.assign_sub(lr*grads3[0])
        b3.assign_sub(lr*grads3[1])
        w2.assign_sub(lr*grads2[0])
        b2.assign_sub(lr*grads2[1])
        w1.assign_sub(lr * grads1[0])  # 参数w1自更新
        b1.assign_sub(lr * grads1[1])  # 参数b自更新

    # 每个epoch，打印loss信息
    print("Epoch {}, loss: {}".format(epoch, loss_all/34))
    train_loss_results.append(loss_all / 34)  # 将4个step的loss求平均记录在此变量中
    loss_all = 0  # loss_all归零，为记录下一个epoch的loss做准备

    
    # 测试部分
    # total_correct为预测对的样本个数, total_number为测试的总样本数，将这两个变量都初始化为0
    total_correct, total_number = 0, 0
    for x_test, y_test in test_db:
        # 使用更新后的参数进行预测
        y1 = tf.matmul(x_test, w1) + b1
        y1 = tf.nn.relu(y1)
        y2 =tf.matmul(y1,w2) + b2
        y2 = tf.nn.relu(y2)
        y = tf.matmul(y2,w3) + b3
        y = tf.nn.softmax(y)
        pred = tf.argmax(y, axis=1)  # 返回y中最大值的索引，即预测的分类
        # 将pred转换为y_test的数据类型
        pred = tf.cast(pred, dtype=y_test.dtype)
        # 若分类正确，则correct=1，否则为0，将bool型的结果转换为int型
        correct = tf.cast(tf.equal(pred, y_test), dtype=tf.int32)
        # 将每个batch的correct数加起来
        correct = tf.reduce_sum(correct)
        # 将所有batch中的correct数加起来
        total_correct += int(correct)
        # total_number为测试的总样本数，也就是x_test的行数，shape[0]返回变量的行数
        total_number += x_test.shape[0]
    # 总的准确率等于total_correct/total_number
    acc = total_correct / total_number
    test_acc.append(acc)
    print("Test_acc:", acc)
    print("--------------------------")

2.4 得出结果，绘制图表

在所有循环结束后，得到最终的数据，可以进行图图表的绘制。
最后得到的loss值为0.0106，测试集准确率达到88.33%
loss值与准确率与迭代次数相关的图表为：
在这里插入图片描述

在这里插入图片描述

3 测试自己的图片

图片由手机拍摄，然后裁剪为1：1，再交由格式工厂缩放为64*64的PNG格式图片。
在这里插入图片描述

在这里插入图片描述

导入程序，进行计算

import matplotlib.image as mpimg
my_image1 = r"C:/Users/zn/Desktop/3.png"
image1 = mpimg.imread(my_image1)
plt.imshow(image1)

my_image1 = image1.reshape(1,64 * 64 * 3)

y1 = tf.matmul(my_image1, w1) + b1
y1 = tf.nn.relu(y1)
y2 =tf.matmul(y1,w2) + b2
y2 = tf.nn.relu(y2)
y = tf.matmul(y2,w3) + b3
y = tf.nn.softmax(y)
pred = tf.argmax(y, axis=1)

print("预测结果: y = " + str(np.squeeze(pred)))

结果如下：
正确的预测：
在这里插入图片描述

错误的预测：

4.源码

4.1 训练

# 导入所需模块
import tensorflow as tf
import tf_utils
from matplotlib import pyplot as plt
import numpy as np

# 导入数据，分别为输入特征和标签
X_train_orig , Y_train_orig , X_test_orig , Y_test_orig , classes = tf_utils.load_dataset()

# 随机打乱数据（因为原始数据是顺序的，顺序不打乱会影响准确率）
# seed: 随机数种子，是一个整数，当设置之后，每次生成的随机数都一样（为方便教学，以保每位同学结果一致）
'''
np.random.seed(116)  # 使用相同的seed，保证输入特征和标签一一对应
np.random.shuffle(X_train_orig)
np.random.seed(116)
np.random.shuffle(Y_train_orig)
tf.random.set_seed(116)
'''

X_train_flatten = X_train_orig.reshape(X_train_orig.shape[0],-1) #每一列就是一个样本
X_test_flatten = X_test_orig.reshape(X_test_orig.shape[0],-1)
Y_train_flatten = Y_train_orig.reshape(-1) #每一列就是一个样本
Y_test_flatten = Y_test_orig.reshape(-1)
y_train = Y_train_flatten.T
y_test = Y_test_flatten.T
#归一化数据
x_train = X_train_flatten / 255
x_test = X_test_flatten / 255

# 转换x的数据类型，否则后面矩阵相乘时会因数据类型不一致报错
x_train = tf.cast(x_train, tf.float32)
x_test = tf.cast(x_test, tf.float32)

# from_tensor_slices函数使输入特征和标签值一一对应。（把数据集分批次，每个批次batch组数据）
train_db = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(32)
test_db = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(32)

# 生成神经网络的参数，12288个输入特征故，输入层为12288个输入节点；因为6分类，故输出层为6个神经元
# 用tf.Variable()标记参数可训练
# 使用seed使每次生成的随机数相同（方便教学，使大家结果都一致，在现实使用时不写seed）
w1 = tf.Variable(tf.random.truncated_normal([12288, 25], stddev=0.1, seed=1))
b1 = tf.Variable(tf.zeros([25]))
w2 = tf.Variable(tf.random.truncated_normal([25, 12], stddev=0.1, seed=2))
b2 = tf.Variable(tf.zeros([12]))
w3 = tf.Variable(tf.random.truncated_normal([12, 6], stddev=0.1, seed=3))
b3 = tf.Variable(tf.zeros([6]))

lr = 0.01  # 学习率为0.01
train_loss_results = []  # 将每轮的loss记录在此列表中，为后续画loss曲线提供数据
test_acc = []  # 将每轮的acc记录在此列表中，为后续画acc曲线提供数据
epoch = 1400  # 循环1400轮
loss_all = 0  # 每轮分17个step，loss_all记录17个step生成的17个loss的和

# 训练部分
for epoch in range(epoch):  #数据集级别的循环，每个epoch循环一次数据集
    for step, (x_train, y_train) in enumerate(train_db):  #batch级别的循环 ，每个step循环一个batch
        with tf.GradientTape(persistent = True) as tape:  # with结构记录梯度信息
            y1 = tf.matmul(x_train, w1) + b1  # 神经网络乘加运算
            y1 = tf.nn.relu(y1) 
            y2 = tf.matmul(y1,w2)+b2
            y2 = tf.nn.relu(y2)
            y = tf.matmul(y2,w3)+b3
            y = tf.nn.softmax(y) # 使输出y符合概率分布（此操作后与独热码同量级，可相减求loss）
            y_ = tf.one_hot(y_train, depth=6)  # 将标签值转换为独热码格式，方便计算loss和accuracy
            loss = tf.reduce_mean(tf.square(y_ - y))  # 采用均方误差损失函数mse = mean(sum(y-out)^2)
            loss_all += loss.numpy()  # 将每个step计算出的loss累加，为后续求loss平均值提供数据，这样计算的loss更准确
        # 计算loss对各个参数的梯度
        grads3 = tape.gradient(loss,[w3,b3])
        grads2 = tape.gradient(loss,[w2,b2])
        grads1 = tape.gradient(loss, [w1, b1])

        # 实现梯度更新 w1 = w1 - lr * w1_grad    b = b - lr * b_grad
        w3.assign_sub(lr*grads3[0])
        b3.assign_sub(lr*grads3[1])
        w2.assign_sub(lr*grads2[0])
        b2.assign_sub(lr*grads2[1])
        w1.assign_sub(lr * grads1[0])  # 参数w1自更新
        b1.assign_sub(lr * grads1[1])  # 参数b自更新

    # 每个epoch，打印loss信息
    print("Epoch {}, loss: {}".format(epoch, loss_all/34))
    train_loss_results.append(loss_all / 34)  # 将4个step的loss求平均记录在此变量中
    loss_all = 0  # loss_all归零，为记录下一个epoch的loss做准备

    
    # 测试部分
    # total_correct为预测对的样本个数, total_number为测试的总样本数，将这两个变量都初始化为0
    total_correct, total_number = 0, 0
    for x_test, y_test in test_db:
        # 使用更新后的参数进行预测
        y1 = tf.matmul(x_test, w1) + b1
        y1 = tf.nn.relu(y1)
        y2 =tf.matmul(y1,w2) + b2
        y2 = tf.nn.relu(y2)
        y = tf.matmul(y2,w3) + b3
        y = tf.nn.softmax(y)
        pred = tf.argmax(y, axis=1)  # 返回y中最大值的索引，即预测的分类
        # 将pred转换为y_test的数据类型
        pred = tf.cast(pred, dtype=y_test.dtype)
        # 若分类正确，则correct=1，否则为0，将bool型的结果转换为int型
        correct = tf.cast(tf.equal(pred, y_test), dtype=tf.int32)
        # 将每个batch的correct数加起来
        correct = tf.reduce_sum(correct)
        # 将所有batch中的correct数加起来
        total_correct += int(correct)
        # total_number为测试的总样本数，也就是x_test的行数，shape[0]返回变量的行数
        total_number += x_test.shape[0]
    # 总的准确率等于total_correct/total_number
    acc = total_correct / total_number
    test_acc.append(acc)
    print("Test_acc:", acc)
    print("--------------------------")

# 绘制 loss 曲线
plt.title('Loss Function Curve')  # 图片标题
plt.xlabel('Epoch')  # x轴变量名称
plt.ylabel('Loss')  # y轴变量名称
plt.plot(train_loss_results, label="$Loss$")  # 逐点画出trian_loss_results值并连线，连线图标是Loss
plt.legend()  # 画出曲线图标
plt.show()  # 画出图像

# 绘制 Accuracy 曲线
plt.title('Acc Curve')  # 图片标题
plt.xlabel('Epoch')  # x轴变量名称
plt.ylabel('Acc')  # y轴变量名称
plt.plot(test_acc, label="$Accuracy$")  # 逐点画出test_acc值并连线，连线图标是Accuracy
plt.legend()
plt.show()

4.2 测试图片

import matplotlib.image as mpimg
my_image1 = r"C:/Users/zn/Desktop/2.png"
image1 = mpimg.imread(my_image1)
plt.imshow(image1)

my_image1 = image1.reshape(1,64 * 64 * 3)

y1 = tf.matmul(my_image1, w1) + b1
y1 = tf.nn.relu(y1)
y2 =tf.matmul(y1,w2) + b2
y2 = tf.nn.relu(y2)
y = tf.matmul(y2,w3) + b3
y = tf.nn.softmax(y)
pred = tf.argmax(y, axis=1)

print("预测结果: y = " + str(np.squeeze(pred)))

5.总结

在预测自己图片的时候，每次迭代的结果不一样，预测图片的结果也不一样，准确率不是特别高，一半一半吧，不过第一次训练成这样我已经很满意了。后续还可以进行改进，加入adam优化器，加入正则化表达式，学习率衰减等等，欢迎大家提出更优解。

可以尝试使用tf.keras简化程序，但速度较慢（可能是电脑配置原因）

model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(12288,activation = 'relu'),
    tf.keras.layers.Dense(25,activation = 'relu'),
    tf.keras.layers.Dense(6,activation = 'softmax')
])
model.compile(optimizer = tf.keras.optimizers.SGD(lr = 0.05),loss = tf.keras.losses.MeanSquaredError(),
             metrics = ['sparse_categorical_accuracy'])
model.fit(x_train,y_train,batch_size=256,epochs=1400,validation_data=(x_test,y_test),validation_freq=1)
model.summary()

6.写给正在深度学习入门的你

博主是一位准研究生，暑假在家学习相关知识，这是我训练出的第一个能用的神经网络，中间过程确实颇为坎坷。相信看到这里的你也许和我一样，在网上瞎找资料学习的时候被各种不知道哪来的老师抛出的高大上名词打的摸不着北，最后我还是静下心来慢慢地看完了吴恩达老师深度学习的前两课，虽然全是数学公式和理论，但第一遍只要留个印象就可以了（极端一点，就是坐着玩手机听个声你也得听完），但听完之后，基本上是不会训练什么模型的，然后我去学习了numpy，pandas，matplotlib等常用工具的相关知识（不需要太深入，只需要掌握基本用法即可），到这里，还没完，我又去找了北京大学的tensorflow2.0课程学习怎么使用tensorflow，那老师讲的真不错，推荐，听这个的时候你会发现这些所谓高端的名词其实你早就已经在吴恩达课程上见过了，慢慢的亲切感，待到前面几章一结束你就已经基本上会使用tensorflow构建网络了，我就是这样的，于是有了这篇博文。
以上这么多，我想说什么呢，当你迷茫切急切地想训练自己的模型实现‘深度学习’的时候（我当初就是直接看tensorflow教程发现看不懂），静下心来吧，去了解一下深度神经网络的基本知识，然后了解一下基本工具，随后你会越来越快的进入神经网络的世界。
其次我想说，一定一定要自己动手调参，我当时不理解什么维度的概念，当我自己创建神经网络的时候，才知道原来有这么多的bug，我一个一个参数的print（xx.shape）,慢慢找出问题的所在（本来这个程序挺简单的，今天找了一下午bug，原来问题就出在维度），随后再根据结果改进学习率等超参数。这样一轮下来，什么独热编码，numpy，准确率计算，loss你就都清楚了。
在你不知所措的时候，希望你不要放弃，静下心来从理论学起，我们一起进步。

有问题欢迎联系我：
1759412770@qq.com
zn1759412770@163.com