小白学Tensorflow之简单神经网络

最新推荐文章于 2021-12-30 14:17:00 发布

cmm_h

最新推荐文章于 2021-12-30 14:17:00 发布

阅读量343

点赞数

分类专栏： Tensorflow 文章标签：神经网络

本文链接：https://blog.csdn.net/cmm_h/article/details/52025610

版权

Tensorflow 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在这篇博客中，我们将利用Tensorflow搭建一个简单的三层神经网络，分别是一个输入层，一个隐藏层和一个输出层。并且，我们采用sigmoid函数作为激活函数。
第一，我们先构建神经网络模型，其中w_layer_1是输入层到隐藏层之间的连接矩阵，然后用sigmoid函数来作为激活函数，w_layer_2是隐藏层到输出层之间的连接矩阵。

# 定义输入层到隐藏层之间的连接矩阵
w_layer_1 = init_weights([784, 625])

# 定义隐藏层到输出层之间的连接矩阵
w_layer_2 = init_weights([625, 10])

def model(X, w_layer_1, w_layer_2):

    # 我们采用 sigmoid 函数来作为激活函数
    h = tf.nn.sigmoid(tf.matmul(X, w_layer_1))
    return tf.matmul(h, w_layer_2)

第二，我们还是采用softmax和交叉熵来训练我们的模型。

# 训练模型，我们计算交叉熵的平均值和采用梯度下降法来训练
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(py_x, Y))
learning_rate = 0.01
train_op = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)

完整代码，如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import numpy as np
import tensorflow as tf 
import input_data

def init_weights(shape):
    return tf.Variable(tf.random_normal(shape, stddev = 0.01))

def model(X, w_layer_1, w_layer_2):

    # 我们采用 sigmoid 函数来作为激活函数
    h = tf.nn.sigmoid(tf.matmul(X, w_layer_1))
    return tf.matmul(h, w_layer_2)

# 导入数据
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
trX, trY, teX, teY = mnist.train.images, mnist.train.labels, mnist.test.images, mnist.test.labels

X = tf.placeholder("float", [None, 784])
Y = tf.placeholder("float", [None, 10])

# 定义输入层到隐藏层之间的连接矩阵
w_layer_1 = init_weights([784, 625])

# 定义隐藏层到输出层之间的连接矩阵
w_layer_2 = init_weights([625, 10])

# 搭建模型
py_x = model(X, w_layer_1, w_layer_2)

# 训练模型，我们计算交叉熵的平均值和采用梯度下降法来训练
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(py_x, Y))
learning_rate = 0.01
train_op = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)
predict_op = tf.argmax(py_x, 1)

with tf.Session() as sess:

    init = tf.initialize_all_variables()
    sess.run(init)

    for i in xrange(100):
        for start, end in zip(range(0, len(trX), 128), range(128, len(trX), 128)):
            sess.run(train_op, feed_dict = {X: trX[start:end], Y: trY[start:end]})
        print i, np.mean(np.argmax(teY, axis = 1) == sess.run(predict_op, feed_dict = {X: teX, Y: teY}))