junchengberry的博客

专注机器学习、深度学习

神经网络与深度学习一、人工神经网络初步

本文转载这里写链接内容

“””
人工神经网络其实在很久以前就被提出来了,苦于当时没有足够强大的硬件(比如现在也有点烂大街的GPU)去
支撑理论的实践(其实还有一部分原因是面对图像这样的高维数据,最初的神经网络确实没有做卷积神经网络
这样特殊的处理,从而参数极大),因此消停了非常长的时间。
当然,它的热度在近两年被推到了一个近乎极端的状态,似乎是个好点的实验室,是个大型点的互联网公司,
不说自己会点深度学习和神经网络都不好意思说自己是这个圈子里混的。当然,媒体的炒作是一方面啦,
但是神经网络确实在近期的一些任务中表现出了非常强势的优势。
比如在很多分类问题中,样本是不可线性切分的,那特征的处理就尤为重要了,有意思的是,这正是神经网络所擅长的,
在每一次的前向计算过程中,就在自动地做feature mapping,而到达softmax层的时候,其实构造出来的feature空间
里,样本已经是能近似线性切分的了,于是三下五除二把其他分类器远远甩在后面了。
背景废话了一大堆,咱们来具体看看,简单的人工神经网络是怎么样对样本点做非线性切分的。
“”“

import numpy as np
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegressionCV

1、手动生成一个随机的平面点分布,并画出来图形

np.random.seed(0)
X, y = make_moons(200, noise=0.20)#符合高斯0.2分布

X是一个200*2的矩阵,都符合高斯0.2分布,例如0.743461176196,0.464656328377

y是200*1的矩阵,值都是0或者1,表示数据的标签

plt.scatter(X[:,0], X[:,1], s=40, c=y, cmap=plt.cm.Spectral)

plt.scatter(X[:,0], X[:,1], s=40, c=y)
plt.show()

### 2、咱们定义一个函数用来画我们分类结果的决策边界(也就是分界线)

咱们先顶一个一个函数来画决策边界

def plot_decision_boundary(pred_func):

# 2.1设定最大最小值,附加一点点边缘填充

x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
#x_min值为-1.85462041177,x_max值为2.75536302013
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
#y_min的值为-1.43206382316,y_max的值为1.84161.44582
h = 0.01

# 2.2通过meshgrid生成网格点

xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

#xx是一个(328,461)的矩阵,size为151208,以0.01为差值
#yy是一个(328,461)的矩阵,size为151208,以0.01为差值

# 2.3用预测函数预测一下

Z = pred_func(np.c_[xx.ravel(), yy.ravel()])#Z的值为151208个0或者1的数
#上面这句话的调用和plot_decision_boundary(lambda x: clf.predict(x))
#H=clf.predict(np.c_[xx.ravel(), yy.ravel()])
#np.c_按照列进行合并,np.r_按照行进行合并元素
"""
 lambda x: clf.predict(x)是什么?
 (1)lambda实际上是一种函数,当你想运行一个函数而又毫不关心他的函数名时,
 就可以叫他lambda。这个函数实际上可以写为
def call_clf_predict(x):
    return clf.predict(x)
(2)plot_decision_boundary(call_clf_predict)
  lambda函数实际上和lambda演算相关,lambda演算就是尝试把函数当做数去使用。
 第8行到底接受到了什么?
 答案是第8行实际上接收到了一个方法(函数),这个方法被用pred_func进行了替换。
 那么这个方法又是谁呢?答案是lambda函数,lambda函数又是谁呢?答案是clf.predict(x)。
 所以pred_func实际上就是clf.predict(x)。因此在调用环节,plot_decision_boundary(lambda x: clf.predict(x)) 
 等价于 plot_decision_boundary(clf.predict)
"""
Z = Z.reshape(xx.shape)

# 2.4画出图测试例子

plt.contourf(xx, yy, Z, cmap=plt.cm.Spectral)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Spectral)

### 3、我们先用传统的逻辑回归来做一下分类,并画出判定边界

"""
(1)在scikit-learn中,与逻辑回归有关的主要是这3个类。LogisticRegression, LogisticRegressionCV 

和logistic_regression_path。其中LogisticRegression和LogisticRegressionCV的主要区别是,LogisticRegressionCV
使用了交叉验证来选择正则化系数C,而LogisticRegression需要自己每次指定一个正则化系数。除了交叉验证
以及选择正则化系数C以外, LogisticRegression和LogisticRegressionCV的使用方法基本相同。
(2)logistic_regression_path类则比较特殊,主要是用在模型选择的时候,它拟合数据后,不能直接来做
预测,只能为拟合数据选择合适逻辑回归的系数和正则化系数。一般情况用不到这个类,所以后面不再讲述logistic_regression_path类。
(3)此外,scikit-learn里面有个容易让人误解的类RandomizedLogisticRegression,虽然名字里有逻辑回归
的词,但是主要是用L1正则化的逻辑回归来做特征选择的,属于维度规约的算法类,不属于我们常说的分类算法的范畴
“”“

3.1咱们先来瞄一眼逻辑斯特回归对于它的分类效果

clf = LogisticRegressionCV()
clf.fit(X, y)

3.2画一下决策边界

print(“clf.predict(x):”,clf.predict(x))

plot_decision_boundary(lambda x: clf.predict(x))
plt.title(“Logistic Regression”)
plt.show()

咱们看到下面这样的结果很好理解对吧,因为线性切分,决策边界是直线,这条直线只能

尽量让某一类点落在某一侧,但是永远做不到真的完全切分

## 4、咱们来试一个简单的人工神经网络

## 这是一个分类问题,因此我们用softmax分类器(LR的多分类),并且用互熵损失作为损失函数

## BP计算梯度以便使用(随机)梯度下降

num_examples = len(X) # 样本数
nn_input_dim = 2 # 输入的维度
nn_output_dim = 2 # 输出的类别个数

梯度下降参数

epsilon = 0.01 # 学习率
reg_lambda = 0.01 # 正则化参数

4.1定义损失函数

先定义了正向推导过程,用互熵损失作为损失函数

def calculate_loss(model):
W1, b1, W2, b2 = model[‘W1’], model[‘b1’], model[‘W2’], model[‘b2’]
#(1)前向传播计算预测值
z1 = X.dot(W1) + b1#正向推
a1 = np.tanh(z1)
z2 = a1.dot(W2) + b2
exp_scores = np.exp(z2)
probs = exp_scores / np.sum(exp_scores, axis=1, keepdims=True)
#(2)计算损失
corect_logprobs = -np.log(probs[range(num_examples), y])
data_loss = np.sum(corect_logprobs)
#(3)在损失函数中添加正则化项W1^2+W2^2
data_loss += reg_lambda/2 * (np.sum(np.square(W1)) + np.sum(np.square(W2)))
return 1./num_examples * data_loss

4.2完整的训练建模函数定义

def build_model(nn_hdim, num_passes=20000, print_loss=False):
”’
参数:
1) nn_hdim: 隐层节点个数
2)num_passes: 梯度下降迭代次数,经过测试50000次和20000区别不大
因为到12000后,Loss趋向0.071316,不再向下减小
3)print_loss: 设定为True的话,每1000次迭代输出一次loss的当前值
”’
# (1)随机初始化一下权重
np.random.seed(0)
#nn_input_dim值为2,nn_output_dim值为2,nn_hdim值为3
W1 = np.random.randn(nn_input_dim, nn_hdim) / np.sqrt(nn_input_dim)
b1 = np.zeros((1, nn_hdim))
W2 = np.random.randn(nn_hdim, nn_output_dim) / np.sqrt(nn_hdim)
b2 = np.zeros((1, nn_output_dim))

# 这是咱们最后学到的模型
model = {}

# (2)开始梯度下降...
for i in range(0, num_passes):

    #(3)前向传播计算loss
    z1 = X.dot(W1) + b1#X为200*2,W1为2*3,z1=X.dot(W1)值为200*3,再加上b1(1*3都为0)的值
    a1 = np.tanh(z1)#用非线性函数tanh激活一下,a1为200*3
    z2 = a1.dot(W2) + b2#a1为200*3,W2为3*2,a1.dot(W2)值为200*2,再加上b2(1*3都为0)的值
    exp_scores = np.exp(z2)#z2为200*2的矩阵,后两部是softmax的处理过程,都变为概率
    probs = exp_scores / np.sum(exp_scores, axis=1, keepdims=True)

    # (4)反向传播看课件上的已有的公式推导
    delta3 = probs#probs是一个200*2的矩阵,里面数据都为softmax的概率值
    delta3[range(num_examples), y] -= 1#这句话不太明白
    dW2 = (a1.T).dot(delta3)#a1为200*3的矩阵,a1.T为3*200,delta3为200*2,结果为3*2
    db2 = np.sum(delta3, axis=0, keepdims=True)#db2为1*2矩阵
    delta2 = delta3.dot(W2.T) * (1 - np.power(a1, 2))
    #delta3为200*2,W2为3*2,W2.T为2*3,delta3.dot(W2.T)结果为200*3
    #a1为200*3,1-np.power(a1,2)为200*3,
    #矩阵*矩阵的结果是对应元素相乘,结果delta2仍为200*3
    dW1 = np.dot(X.T, delta2)
    db1 = np.sum(delta2, axis=0)

    #(5)加上正则化项
    dW2 += reg_lambda * W2
    dW1 += reg_lambda * W1

    #(6)梯度下降更新参数
    W1 += -epsilon * dW1#epsilon值为0.01
    b1 += -epsilon * db1
    W2 += -epsilon * dW2
    b2 += -epsilon * db2

    #(7)重新更新W1,b1,W2和b2的值
    model = { 'W1': W1, 'b1': b1, 'W2': W2, 'b2': b2}

    #(8)每迭代1000次输出一下
    if print_loss and i % 1000 == 0:
      print ("Loss after iteration %i: %f" %(i, calculate_loss(model)))

return model

4.3判定结果的函数

def predict(model, x):
W1, b1, W2, b2 = model[‘W1’], model[‘b1’], model[‘W2’], model[‘b2’]
#(1)前向运算
z1 = x.dot(W1) + b1
a1 = np.tanh(z1)
z2 = a1.dot(W2) + b2
exp_scores = np.exp(z2)
#5.2计算概率输出最大概率对应的类别
probs = exp_scores / np.sum(exp_scores, axis=1, keepdims=True)
return np.argmax(probs, axis=1)#返回最大的probs

5、建立3个隐层的神经网络

model = build_model(3, print_loss=True)

6、然后再把决策/判定边界画出来并输出

plot_decision_boundary(lambda x: predict(model, x))
plt.title(“Decision Boundary for hidden layer size 3”)
plt.show()

咱们看到这样一个图,3个隐层的神经网络能够区分得还不错

7、测试不同的隐层个数对结果的影响

plt.figure(figsize=(16, 32))
hidden_layer_dimensions = [1, 2, 3, 4, 5, 20, 50]
for i, nn_hdim in enumerate(hidden_layer_dimensions):
plt.subplot(5, 2, i+1)
plt.title(‘Hidden Layer size %d’ % nn_hdim)
model = build_model(nn_hdim)
plot_decision_boundary(lambda x: predict(model, x))
plt.show()

实验表明,隐层个数越多,拟合程度越好,可能会出现过拟合的现象

阅读更多
文章标签: 深度学习
个人分类: 深度学习学习历程
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

不良信息举报

神经网络与深度学习一、人工神经网络初步

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭