斯坦福CS231n作业代码（汉化）Assignment 2 Q5

最新推荐文章于 2024-07-07 13:33:40 发布

BigDataDigest

最新推荐文章于 2024-07-07 13:33:40 发布

阅读量4.7k

点赞数 2

分类专栏：公开课作业文章标签：斯坦福李飞飞公开课

本文链接：https://blog.csdn.net/BigDataDigest/article/details/79269027

版权

本文介绍了TensorFlow的基础知识，包括其功能和使用原因。通过一个具体的案例，演示了如何在TensorFlow中构建和训练卷积神经网络。文章提供了学习资源，并指导读者如何学习和使用TensorFlow，包括数据加载、模型构建和训练。最后，文章鼓励读者尝试不同的网络架构和超参数以提高模型性能。

摘要由CSDN通过智能技术生成

TensorFlow是个什么东东？

编写：土豆 MoreZheng SlyneD
校对：碧海听滔 Molly
总校对与审核：寒小阳

在前面的作业中你已经写了很多代码来实现很多的神经网络功能。Dropout, Batch Norm 和 2D卷积是深度学习在计算机视觉中的一些重活。你已经很努力地让你的代码有效率以及向量化。

对于这份作业的最后一个部分，我们不会继续探讨之前的代码，而是转到两个流行的深度学习框架之一。在这份Notebook中，主要是Tensorflow（在其他的notebook中，还会有PyTorch代码）.

TensorFlow是什么？

Tensorflow是基于Tensor来执行计算图的系统，对于变量(Variables)有原生的自动反向求导的功能。在它里面，我们用的n维数组的tensor相当于是numpy中的ndarray。

为什么用tensorflow?

我们的代码将会运行在GPU上，因此会在训练的时候快很多。不过，编写在GPU上运行的程序模块的方法不在这门课的范围内。
我们希望你为你的项目使用这些框架，这样比起你自己编写基础代码，要更加有效率。
我们希望你们可以站在巨人的肩膀上！TensorFlow和PyTorch都是优秀的框架，可以让你的生活更轻松，既然你已经明白了他们的原理，你就可以随意地使用它们了。
我们希望你可以编写一些能在学术或工业界可以使用的深度学习代码。

我该怎么学习TensorFlow？

TensorFlow已经有许多优秀的教程，包括来自google自己的那些。

另外，这个notebook也会带领你过一遍在TensorFlow中，训练模型所需要用到的许多东西。如果你需要学习更多内容，或者了解更多细节，可以去看本Notebook的结尾部分，那里可以找到一些有用的教程链接。

加载数据

import tensorflow as tf
import numpy as np
import math
import timeit
import matplotlib.pyplot as plt
%matplotlib inline

from cs231n.data_utils import load_CIFAR10

def get_CIFAR10_data(num_training=49000, num_validation=1000, num_test=10000):
    """
    Load the CIFAR-10 dataset from disk and perform preprocessing to prepare
    it for the two-layer neural net classifier. These are the same steps as
    we used for the SVM, but condensed to a single function.  
    """
    # Load the raw CIFAR-10 data
    cifar10_dir = 'cs231n/datasets/cifar-10-batches-py'
    X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir)

    # Subsample the data
    mask = range(num_training, num_training + num_validation)
    X_val = X_train[mask]
    y_val = y_train[mask]
    mask = range(num_training)
    X_train = X_train[mask]
    y_train = y_train[mask]
    mask = range(num_test)
    X_test = X_test[mask]
    y_test = y_test[mask]

    # Normalize the data: subtract the mean image
    mean_image = np.mean(X_train, axis=0)
    X_train -= mean_image
    X_val -= mean_image
    X_test -= mean_image

    return X_train, y_train, X_val, y_val, X_test, y_test


# Invoke the above function to get our data.
X_train, y_train, X_val, y_val, X_test, y_test = get_CIFAR10_data()
print('Train data shape: ', X_train.shape)
print('Train labels shape: ', y_train.shape)
print('Validation data shape: ', X_val.shape)
print('Validation labels shape: ', y_val.shape)
print('Test data shape: ', X_test.shape)
print('Test labels shape: ', y_test.shape)

Train data shape:  (49000, 32, 32, 3)
Train labels shape:  (49000,)
Validation data shape:  (1000, 32, 32, 3)
Validation labels shape:  (1000,)
Test data shape:  (10000, 32, 32, 3)
Test labels shape:  (10000,)

案例模型

一些实用的建议

我们的图像数据格式是:N x H x W x C, 其中

N 是数据点的个数
H 是每张图片的高度(单位：像素)
W 是每张图片的宽度(单位: 像素)
C 是通道的数量 (通常是3：R, G, B)

这是一种正确的表示数据的方式，比如当我们做一些像是2D卷积这样的操作，需要理解空间上相邻的像素点。但是，当我们把图像数据放到全连接的仿射层(affine layers)中时，我们希望一个数据样本可以用一个向量来表示，这个时候，把数据分成不同的通道、行和列就不再有用了。

案例模型本尊

训练你自己模型的第一步就是要定义它的结构。
这里有一个定义在TensorFlow中的卷积神经网络的例子 – 试着搞清楚每一行都在做什么，要记住，每一行都建立在前一行之上。目前我们还没有训练什么东西 – 这后面会讲到 – 现在，我们希望你能够明白这些东西都是怎么建立起来的。

在这个例子里面，你们会看到2D的卷积层， ReLU激活层，和全连接层（线性的）。你们也会看到Hinge loss损失函数，以及Adam优化器是如何使用的。

确保要明白为什么线性层的参数是5408和10。

TensorFlow细节

在TensorFlow中，像我们前面的Notebook一样，我们首先要初始化我们的变量，然后是我们的模型。

# clear old variables
tf.reset_default_graph()

# setup input (e.g. the data that changes every batch)
# The first dim is None, and gets sets automatically based on batch size fed in
# 设置输入，比如每个batch要输入的数据
# 第一维是None, 可以根据输入的batch size自动改变。

X = tf.placeholder(tf.float32, [None, 32, 32, 3])
y = tf.placeholder(tf.int64, [None])
is_training = tf.placeholder(tf.bool)

def simple_model(X,y):
    # define our weights (e.g. init_two_layer_convnet)
    #  定义权重W
    # setup variables
    # 设置变量
    Wconv1 = tf.get_variable("Wconv1", shape=[7, 7, 3, 32])
    bconv1 = tf.get_variable("bconv1", shape=[32])
    W1 = tf.get_variable("W1", shape=[5408, 10]) 
    b1 = tf.get_variable("b1", shape=[10])

    # define our graph (e.g. two_layer_convnet)
    # 定义我们的图 


    # 这里我们需要用到conv2d函数，建议大家仔细阅读官方文档
    # tf.nn.conv2d()  https://www.tensorflow.org/api_docs/python/tf/nn/conv2d
    # conv2d(input,filter,strides,padding,use_cudnn_on_gpu=None,data_format=None,name=None)
    # input ： [batch, in_height, in_width, in_channels]
    # filter/kernel: [filter_height, filter_width, in_channels, out_channels]
    # strides: 长度为4的1维tensor，用来指定在每一个维度上的滑动的窗口滑动的步长
    # 水平或者垂直滑动通常会指定strides = [1,stride,,stride,1] 
    # padding: 'VALID' 或者是 'SAME'
    # data_format: 数据的输入格式，默认是‘NHWC’ 


    # 根据输出的大小的公式：(W-F+2P)/S + 1
    # W: 图像宽度   32
    # F：Filter的宽度  7
    # P: padding了多少  0
    # padding='valid' 就是不padding  padding='same' 自动padding若干个行列使得输出的feature map和原输入feature map的尺寸一致
    # S: stride 步长  2

    a1 = tf.nn.conv2d(X, Wconv1, strides=[1,2,2,1], padding='VALID') + bconv1
    # (W-F+2P)/S + 1 = (32 - 7 + 2*0)/2 + 1 = 13
    # 那么输出的feature map的尺寸就是 13 * 13 * 32 = 5408   （Wconv1 有32个out channels, 也就是说有32个filters）

    h1 = tf.nn.relu(a1) # 对a1中的每个神经元加上激活函数relu
    h1_flat = tf.reshape(h1,[-1,5408])  # reshape h1，把feature map展开成 batchsize * 5408
    y_out = tf.matmul(h1_flat,W1) + b1  # 得到输出的logits: y_out
    return y_out

y_out = simple_model(X,y)

# define our loss
# 定义我们的loss

total_loss = tf.losses.hinge_loss(tf.one_hot(y,10),logits=y_out)
mean_loss = tf.reduce_mean(total_loss) # loss求平均

# define our optimizer
# 定义优化器，设置学习率
optimizer = tf.train.AdamOptimizer(5e-4) # select optimizer and set learning rate
train_step = optimizer.minimize(mean_loss)