单层感知器不能解决异或问题是神经网络的一个常识,而简单的两层神经网络却能将其轻易解决。
import
需要的模块:
import numpy as np
import tensorflow as tf
输入数据的placeholder
:包含一个data
(训练数据)和一个label
(训练标签):
data = tf.placeholder(tf.float32, shape=(4, 2))
label = tf.placeholder(tf.float32, shape=(4, 1))
由于异或只有4
种输入和对应的4
个输出,所以定义固定的shape
。
基于输入数据的placeholder
构建model
:异或需要两层神经网络,每层分别需要一个weight
和一个bias
:
with tf.variable_scope('layer1') as scope:
weight = tf.get_variable(name='weight', shape=(2, 2))
bias = tf.get_variable(name='bias', shape=(2,))
x = tf.nn.sigmoid(tf.matmul(data, weight) + bias)
with tf.variable_scope('layer2') as scope:
weight = tf.get_variable(name='weight', shape=(2, 1))
bias = tf.get_variable(name='bias', shape=(1,))
x = tf.matmul(x, weight) + bias
因为后面的loss
要使用sigmoid_cross_entropy_with_logits
函数,所以第二层网络的输出没有使用sigmoid
函数。
定义loss
:其实这里可以灵活地选用各种loss
函数,例如MSE
。这里还是选用了在CNN
中广泛使用的cross entropy
:
preds = tf.nn.sigmoid(x)
loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(labels=label, logits=x))
定义Optimizer
:
learning_rate = tf.placeholder(tf.float32)
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss)
这里为learning rate
定义了一个placeholder
,当然也可以直接使用常量定义learning rate
。
输入数据并开始训练:
train_data = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
train_label = np.array([[0], [1], [1], [0]])
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
for step in range(10000):
if step < 3000:
lr = 1
elif step < 6000:
lr = 0.1
else:
lr = 0.01
_, l, pred = sess.run([optimizer, loss, preds],
feed_dict={
data: train_data,
label: train_label,
learning_rate: lr})
if step % 500:
print('Step: {} -> Loss: {} -> Predictions: {}'.format(step, l, pred))
补充说明:对于sess.run
函数,其第一个参数是你期望看到的输出信息,函数执行完以后,将这些信息对应地赋值给等号右边的变量;对于feed_dict
,就是向自定义的神经网络中的变量赋值,例如:
_, l, pred = sess.run([optimizer, loss, preds],
feed_dict={
data: train_data,
label: train_label,
learning_rate: lr})