1:tf.random_normal:
正态分布产生的随机值:常用的参数就是shape,和dtype了,但是也包括方差和均值;
参数(shape,stddev,mean,dtype)
2:tf.random_uniform
默然是在0到1之间产生随机数:
但是也可以通过maxval指定上界,通过minval指定下界
np.newaxis 的实用
np.newaxis 在使用和功能上等价于 None,查看源码发现:newaxis = None
,其实就是 None 的一个别名。
np.newaxis 为 numpy.ndarray(多维数组)增加一个轴
>> x = np.arange(3)
>> x
array([0, 1, 2])
>> x.shape
(3,)
>> x[:, np.newaxis]
array([[0],
[1],
[2]])
>> x[:, None]
array([[0],
[1],
[2]])
>> x[:, np.newaxis].shape
(3, 1)
add_layer
x=(特征数*样本数)
# add layer
def add_layer(inputs,in_size,out_size,activation_function=None):
Weights = tf.Variable(tf.random_normal([out_size,in_size]))
bias = tf.Variable(tf.zeros([out_size,1])+ 0.1)
wx_plus_b = tf.matmul(Weights,inputs) + bias
if activation_function is None:
outputs = wx_plus_b
else:
outputs = activation_function(wx_plus_b)
print(tf.shape(outputs))
return outputs
# 构造一个数据集
x_data = np.linspace(-1,1,300)[np.newaxis,:]
noise = np.random.normal(0, 0.05, x_data.shape)
y_data = np.square(x_data) - 0.5 + noise
# placeholder 占个位
xs = tf.placeholder(tf.float32)
ys = tf.placeholder(tf.float32)
l1 = add_layer(xs,1,10,activation_function=tf.nn.sigmoid)
prediction = add_layer(l1,10,1,activation_function=tf.nn.softmax)
loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys-prediction),reduction_indices=[1]))
train = tf.train.GradientDescentOptimizer(0.1).minimize(loss)
init = tf.global_variables_initializer()
session= tf.Session()
session.run(init)
for i in range(1000):
session.run(train,feed_dict={xs:x_data,ys:y_data})
if i%50==0:
print('loss',session.run(loss, feed_dict={xs: x_data, ys: y_data}))
加速神经网络训练
使用梯度下降的时候,有一个问题,就是在网络非常复杂的时候,梯度下降的时候对计算的需求非常高。
常见的几种加速求解cost的最小值的方法:
-
Stochastic Gradient Descent (SGD)
-
Momentum
-
AdaGrad
-
RMSProp
-
Adam
在tensorflow里面提供的几种优化器
- tf.train.GradientDescentOptimizer
- tf.train.AdaeltaOptimizer
- tf.train.AdagradDAOptimizer
- tf.train.AdamOptimizer
- tf.train.MomentumOptimizer