神经网络的正则化

神经网络的vc dimension的值与 神经元的个数以及权重的个数有关。所以个数越多,神经网络模型越强大越复杂。相应的就有可能出现过拟合的现象。


那么如何预防过拟合呢,有两种方法。


正则化项,这是最常见的方法,不同的是,神经网络用梯度下降法优化权重,所以需要损失函数是可导得,如果使用L1正则化项,就不可导了

那么L2正则化项呢,我们知道L2正则化项不能让权重等于零,这样就没有降低权重的个数。


所以我们对L2正则化项进行修改。


early stoping , 就是在梯度下降的过程中尽早的停止,防止过拟合的发生。那么在第几轮的时候停止呢,这就需要validation了。


那还要初始化权重的事儿。


不同的权重初始化会造成不同的E_in, 所以我们可以随机的初始化权重值,初始化权重的值应该较小,并且多试几次。


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
BP神经网络正则化是为了避免过拟合现象而进行的一种处理方法,主要有L1正则化和L2正则化两种方式。其中L1正则化的处理方法是将权重矩阵中的每个元素都乘以一个小于1的缩小因子,而L2正则化的处理方法是将权重矩阵中的每个元素都乘以一个小于1的缩小因子的平方。 以下是一个使用L2正则化的BP神经网络代码示例: ``` import numpy as np class NeuralNetwork: def __init__(self, input_dim, hidden_dim, output_dim, lambda_val): self.input_dim = input_dim self.hidden_dim = hidden_dim self.output_dim = output_dim self.lambda_val = lambda_val self.W1 = np.random.randn(self.input_dim, self.hidden_dim) / np.sqrt(self.input_dim) self.b1 = np.zeros((1, self.hidden_dim)) self.W2 = np.random.randn(self.hidden_dim, self.output_dim) / np.sqrt(self.hidden_dim) self.b2 = np.zeros((1, self.output_dim)) def sigmoid(self, x): return 1.0 / (1.0 + np.exp(-x)) def sigmoid_prime(self, x): return self.sigmoid(x) * (1 - self.sigmoid(x)) def feedforward(self, X): self.z1 = np.dot(X, self.W1) + self.b1 self.a1 = self.sigmoid(self.z1) self.z2 = np.dot(self.a1, self.W2) + self.b2 exp_scores = np.exp(self.z2) probs = exp_scores / np.sum(exp_scores, axis=1, keepdims=True) return probs def calculate_loss(self, X, y): num_examples = len(X) probs = self.feedforward(X) logprobs = -np.log(probs[range(num_examples), y]) data_loss = np.sum(logprobs) data_loss += self.lambda_val/2 * (np.sum(np.square(self.W1)) + np.sum(np.square(self.W2))) return 1./num_examples * data_loss def predict(self, X): probs = self.feedforward(X) return np.argmax(probs, axis=1) def backpropagation(self, X, y): num_examples = len(X) delta3 = self.feedforward(X) delta3[range(num_examples), y] -= 1 dW2 = (self.a1.T).dot(delta3) db2 = np.sum(delta3, axis=0, keepdims=True) delta2 = delta3.dot(self.W2.T) * self.sigmoid_prime(self.z1) dW1 = np.dot(X.T, delta2) db1 = np.sum(delta2, axis=0) dW2 += self.lambda_val * self.W2 dW1 += self.lambda_val * self.W1 return dW1, db1, dW2, db2 def train(self, X, y, num_passes=20000, learning_rate=0.01): for i in range(num_passes): dW1, db1, dW2, db2 = self.backpropagation(X,y) self.W1 -= learning_rate * dW1 self.b1 -= learning_rate * db1 self.W2 -= learning_rate * dW2 self.b2 -= learning_rate * db2 if i % 1000 == 0: print("Loss after iteration %i: %f" %(i, self.calculate_loss(X,y))) ``` 以上代码中,NeuralNetwork类的构造函数中输入参数依次为输入层维度、隐藏层维度、输出层维度和正则化因子。其中,初始化权重矩阵时使用的是随机高斯分布,并且通过除以根号下输入层或隐藏层维度来缩放权重矩阵。在feedforward方法中,首先计算z值和激活函数值,然后通过softmax函数计算输出概率。在calculate_loss方法中,计算交叉熵损失和L2正则化损失之和。在backpropagation方法中,首先计算输出层误差,然后反向传播计算隐藏层误差,最后计算梯度并添加L2正则化项。在train方法中,迭代训练神经网络并打印出每一次迭代后的损失值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值