tensorflow复习日记（一）线性回归

最新推荐文章于 2020-12-20 08:11:13 发布

masbbx123

最新推荐文章于 2020-12-20 08:11:13 发布

阅读量212

点赞数

分类专栏： tensorflow 文章标签： tensorflow

本文链接：https://blog.csdn.net/masbbx123/article/details/79564577

版权

tensorflow 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

重新把tensorflow复习一下：
http://www.tensorfly.cn/tfdoc/get_started/introduction.html
完整代码+注释：

import tensorflow as tf
import numpy as np

# 使用 NumPy 生成测试数据(phony data), 总共 100 个点.
x_data = np.float32(np.random.rand(2, 100)) # 随机输入
y_data = np.dot([0.100, 0.200], x_data) + 0.300
# x_data格式：(2,100)，也就是一共有100个样本，特征是2维的
# y_data格式：(100,) 样子有点奇怪，可以直接reshape为(1，100)，实际写代码中一定能够要避免这种shape

# 构造一个线性模型
b = tf.Variable(tf.zeros([1]))
W = tf.Variable(tf.random_uniform([1, 2], -1.0, 1.0))
y = tf.matmul(W, x_data) + b
# 网络结构：y=W0*x0+W1*x1+b
# W的格式：(1,2)
# 理论上来说我们使用任何模型都可以用来做拟合

# 最小化方差
loss = tf.reduce_mean(tf.square(y - y_data))
#代价函数是平均误差
optimizer = tf.train.GradientDescentOptimizer(0.5)
train = optimizer.minimize(loss)
#train是SGD

# 初始化变量
init = tf.initialize_all_variables()

# 启动图 (graph)
sess = tf.Session()
sess.run(init)

# 拟合平面
for step in range(0, 201):
    sess.run(train)
    if step % 20 == 0:
        print (step, sess.run(W), sess.run(b))

下面进行一些实验测试：
1）关于x的shape，按照Ng课程中所描述的，一般为(nx,m)，m指有m个样本，n指n个维度，所以例程中x_data.shape为(2, 100)，完全OK
2）修改优化方法：

optimizer = tf.train.GradientDescentOptimizer(0.5)#梯度下降法，只需要一个学习率
#optimizer = tf.train.AdadeltaOptimizer(learning_rate=0.001,rho=0.95,epsilon=1e-08)#没有训练出来
#optimizer = tf.train.AdagradOptimizer(learning_rate=0.001, initial_accumulator_value=0.1)#没有训练出来
#optimizer = tf.train.MomentumOptimizer(learning_rate=0.5,momentum=0.9)#OK了
#optimizer = tf.train.AdamOptimizer(learning_rate=0.001,beta1=0.9, beta2=0.999, epsilon=1e-08)#没有训练出来
#optimizer = tf.train.FtrlOptimizer(learning_rate=0.5,learning_rate_power=-0.5,initial_accumulator_value=0.1,
#                                   l1_regularization_strength=0.0, l2_regularization_strength=0.0)#OK
#optimizer = tf.train.RMSPropOptimizer(learning_rate=0.01,decay=0.9, momentum=0.0, epsilon=1e-10)

实验中发现，这么简单的情况，不同的优化方法，不同的参数对结果有很大的影响。
所以虽然在后面提到SGD方法速度最慢效果最差，但是可能在某些情况下，SGD反而效果更好。所以一个模型的优化方法也要多尝试。
3）修改loss function

loss = tf.reduce_mean(tf.abs(y - y_data))

模型立刻挂了？为什么呢？以后这个问题搞明白后，一定会回来更新此文章。
发现是因为abs函数无法求导，所以无法进行反向传播！

loss = tf.reduce_mean(tf.sqrt(tf.square(y - y_data)))

先平方再开方，这样就可以求导了，看上去和abs结果一样，但是就是可以训练了。当然结果很烂，看上去SGD掉入了局部极值，Adam可以训练，就是速度比较慢。

再做个有趣的测试：

loss = tf.reduce_mean(tf.square(y - y_data))*2
optimizer = tf.train.GradientDescentOptimizer(0.5)

训练不收敛，原因是loss变大了，同样的学习率对模型修改就变的更大了，就造成了下面的情况：
这里写图片描述
修改为

loss = tf.reduce_mean(tf.square(y - y_data))*2
optimizer = tf.train.GradientDescentOptimizer(0.2)

一切都正常了，正常的训练过程：
这里写图片描述
同理，修改为：

loss = tf.reduce_mean(tf.square(y - y_data))*0.5
optimizer = tf.train.GradientDescentOptimizer(0.5)

明显训练速度下降了一半。

可见：
1 loss必须是可导的
2 loss和优化器种类，优化器的参数是相关的
3 要想达到最优的结果，必须多尝试

masbbx123

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
tensorflow复习日记（一）线性回归

重新把tensorflow复习一下： http://www.tensorfly.cn/tfdoc/get_started/introduction.html 完整代码+注释：import tensorflow as tfimport numpy as np# 使用 NumPy 生成测试数据(phony data), 总共 100 个点.x_data = np.float32(np.rando
复制链接

扫一扫

专栏目录