第四章-深度神经网络-过拟合

最新推荐文章于 2023-08-09 07:03:04 发布

沙扬娜拉的裙裾

最新推荐文章于 2023-08-09 07:03:04 发布

阅读量319

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/u011089927/article/details/106854115

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

我们训练模型会通过最小化预测与训练集之间的差距来求解参数，但是我们又不希望模型过分学习训练数据，我们期待模型针对新数据的预测效果好，当模型过于复杂后，可以很好地记忆每一个训练数据在随机噪音部分而忘记了要去学习通用趋势，因此需要防止过拟合。

1.正则化

防止过拟合常用的方法，模型复杂可以从两方面来看，第一就是模型参数个数，第二就是参数大小。优化目标变为：

J(theta)-> J(theta)+lamda*R(w) // 参数theta包含权重w和偏置b，模型复杂度只有w决定，lamda 表示模型复杂度在损失函数中比例

L1正则： sum(|wi|) //不可导，会使参数变稀疏，更多的参数变为0，达到选择特征的效果

L2正则：sum(wi^2) //可导，比较常用，当参数很小时，其平方就很接近0，模型不会进一步调整参数了

tf.reduce_mean()求平均值，reduce指的是一串数据求平均值后维数降低了，只传递tensor，没有指定axis，会输出所有的平均值，指定参数axis，会按照对应维度，降到长度为1，举例，tf.reduce_mean(x,0) 会拍扁变成1行，也就是同列对应求均值。

import tensorflow as tf
import sys
from numpy.random import RandomState

batch_size = 8

w1 = tf.Variable(tf.random_normal([2,3],stddev=1,seed=1))
w2 = tf.Variable(tf.random_normal([3,1],stddev=1,seed=1))

#placeholder just for unsure variables
x = tf.placeholder(tf.float32,shape=(None,2),name='x-input')
y_ = tf.placeholder(tf.float32,shape=(None,1),name='y-input')

#forward transport
a = tf.matmul(x,w1)
y = tf.matmul(a,w2)

#define loss
y = tf.sigmoid(y)
#tf.clip_by_value(A, min, max)：输入一个张量A，把A中的每一个元素的值都压缩在min和max之间。
#小于min的让它等于min，大于max的元素的值等于max。
#基于定义的min与max对tesor数据进行截断操作，目的是为了应对梯度爆发或者梯度消失的情况
cross_entropy = -tf.reduce_mean(y_*tf.log(tf.clip_by_value(y,1e-10,1.0))+(1-y_)*tf.log(tf.clip_by_value(1-y,1e-10,1.0)))

#define fanxiang chuanbo suanfa lai youhua shenjingwangluo de canshu,zuixiaohua jiaocha shang
train_step = tf.train.AdamOptimizer(0.001).minimize(cross_entropy)
#x = tf.constant([[0.7,0.9]])
rdm = RandomState(1) # define seed
dataset_size = 128
X = rdm.rand(dataset_size,2)
Y = [[int(x1+x2 < 1)] for (x1,x2) in X]
# create a session() to run tensor
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    print(sess.run(w1))
    print(sess.run(w2))
    STEPS = 5000
    for i in range(STEPS):
        start = (i*batch_size) % dataset_size
        end = min(start+batch_size,dataset_size)
        sess.run(train_step,feed_dict={x:X[start:end],y_:Y[start:end]})
        if i % 1000 == 0:
            total_cross_entropy = sess.run(cross_entropy,feed_dict={x:X,y_:Y})
            print("After %d training step(s), cross entropy on all data is %g" % (i,total_cross_entropy))
    print(sess.run(w1))
    print(sess.run(w2))

l2正则的tensorflow实现：

import tensorflow as tf
import sys
from numpy.random import RandomState

x = tf.placeholder(tf.float32,shape=(None,2),name="x-input")#用来定义一个run之前再确定大小的tensor，run之前必须喂数据，A Tensor that may be used as a handle for feeding a value, but not evaluated directly.

y_ = tf.placeholder(tf.float32,shape=(None,1),name="y-input")

w = tf.Variable(tf.random_normal([2,1],stddev=1,seed=1))

y = tf.matmul(x,w) #前向传播

rdm = RandomState(1)
dataset_size =32
X = rdm.rand(dataset_size,2) #生32*2维的特征向量x
Y = [[int(x1+x2<1)] for (x1,x2) in X] #生成y，如果x1+x2小于1，则label=1，否则等于0

loss = tf.reduce_mean(tf.square(y_-y))+tf.contrib.layers.l2_regularizer(0.003) (w)
#定义一个损失函数，均方损失+l2正则项，0.003是lambda
with tf.Session() as sess:
    init_op = tf.global_variables_initializer() #初始化所有变量，必须显示初始化
    sess.run(init_op)  #运行初始化函数
    print (sess.run(loss,feed_dict={x:X,y_:Y})) #计算loss，喂数据。

沙扬娜拉的裙裾

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第四章-深度神经网络-过拟合

我们训练模型会通过最小化预测与训练集之间的差距来求解参数，但是我们又不希望模型过分学习训练数据，我们期待模型针对新数据的预测效果好，当模型过于复杂后，可以很好地记忆每一个训练数据在随机噪音部分而忘记了要去学习通用趋势，因此需要防止过拟合。1.正则化防止过拟合常用的方法，模型复杂可以从两方面来看，第一就是模型参数个数，第二就是参数大小。优化目标变为：J(theta)-> J(theta)+lamda*R(w) // 参数theta包含权重w和偏置b，模型复杂度只有w决定，lamda ...
复制链接

扫一扫