目录
一、前言
本文写于笔者入门深度学习之时,了解尚浅,只是把自己看到的、学到的分享在论坛上,有问题之处请指教,友善交流。
二、参考资料与基础
参考资料:《动手学深度学习》
基础:对深度学习框架有一定的认识,了解nd的基础运算、自动求导
三、为什么是线性回归
作为机器学习的一个重要分支 —— 深度学习,通常基于神经网络模型逐级表示越来越抽象的概念或模式。对于入门者不太友好,所以我们先从线性回归和softmax回归入手,介绍深度学习的基本概念和神经网络的基本结构。
首先介绍两种最基础的单层神经网络 —— 线性回归 和 softmax回归。
我们通常根据神经网络的输出预测值是否离散将其分为两类问题,输出值若为连续值,则为回归问题。比如预测楼盘售价、空气湿度、地表温度等等。
反之,输出为离散值的问题称为分类问题,例如 肿瘤良恶性判断、垃圾邮件识别·、图像分类。
在这里,我们首先以线性回归为例,介绍深度学习模型的基本要素、表示方法。
四、问题分析
最常见的例子便是房屋售价预测问题了。我们直到房屋价格取决于一系列因素,如:房屋状况、交通、地区安全、面积等等。在这里我们简化到两个因素,即面积和交通,则可以写出下列的数学模型。
1.建立模型
设房屋的面积为x1,交通状况为x2,预测输出的房屋价格为 ,我们可以建立基于x1和x2来预测房屋价格的表达式,这就是模型。
其中w1、w2指的是权重(weight),b是偏差(bias),其都是标量,他们都是线形回归模型的参数(parameter)。
下面我们介绍一下模型参数的生成。
from mxnet import nd, autograd
from time import time
import random
from IPython import display
from matplotlib import pyplot as plt
# 生成数据集
num_input = 2 # 特征维度
num_examples = 10000 # 样本数量
true_w = [2, -3.5]
true_b = 3.7
features = nd.random.normal(0, 1, (num_examples, num_input))
labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b
labels += nd.random.normal(0, 0.01, shape=labels.shape)
# 查看数据
在建立了模型之后。我们需要读入数据来训练模型,计算每一次的误差,为了降低误差,我们需要引进优化算法,通过迭代完成模型参数的优化。其实在这里就已经说出了剩下的几部分:读入数据·、损失函数定义、优化算法书写、模型训练、模型预测。
2.读入数据,得到输出
为了训练模型,我们通常会收集许多相关的数据,这个数据集被称作训练数据集(training data set),一个房屋被称作一个样本(sample),其中实际售出房屋价格为标签(label),影响房屋价格的两个因素叫做特征(feature).
假如我们采集的样本数量为n,索引为i的样本特征为 和
,预测标签为
,则对于索引为i的样本,线性回归的预测表达式如下:
3.损失函数
模型训练时,我们需要衡量输出预测值与真实标签的误差,通常有四种方法:0-1损失函数、 平方损失函数、绝对损失函数、对数损失函数。最常见的就是使用平方损失函数,其能够反映距离正确标签的距离。其表达式如下:
表达式中加上1/2使求导后系数为一,使形式稍微简单一些。给定一个训练集,这个函数的值只与给模型的参数有关,在机器学习中,该函数叫做损失函数。
通常我们用训练数据集中所有样本误差的平均来衡量模型预测的质量,在模型训练中,我们的任务归根到底就是希望找出一组参数,使训练样本的平均损失最小。
4.优化算法
关于解的问题:解析解 & 数值解
当模型和损失函数都比较简单的时候,上面的损失函数最小化问题可以通过数学求出来,这类解叫做解析解,然而,大多数的深度学习模型都没有这一条件,只能通过优化算法有穷次的迭代来降低损失函数的值,这类解叫做数值解。
在求解数值解的优化算法中,小批量随机梯度下降被广泛使用,其原理十分简单,这里暂不详述。迭代的过程中有两个参数需要我们自己设置:(批量大小),
(学习率),需要强调的是,这里的批量大小、学习率均为人为设定,非模型训练产生。因此被称为超参数。当然在极少数情况下,超参数也可以通过模型训练获得,在这里不详细讨论。
具体实现:
# 读取数据集
def data_iter(batch_size, features, labels):
num_examples = len(features)
index = list(range(num_examples))
random.shuffle(index)
for i in range(0, num_examples, batch_size):
j = nd.array(index[i: min(i + batch_size, num_examples)])
yield features.take(j), labels.take(j)
batch_size = 10
# 查看数据
# for x, y in data_iter(batch_size,features ,labels):
# print('\n',n,x,y)
# break
# 定义模型
def linreg(x, w, b):
return nd.dot(x, w) + b
# 定义损失函数
def square_loss(y_hat, y):
return ( y_hat- y.reshape(y_hat.shape)) ** 2 / 2
# 定义优化算法
def sgd(params, lr, batch_size):
for param in params:
param[:] = param - lr * param.grad / batch_size
6.模型训练,预测标签
实现:
# 初始化参数
w = nd.random.normal(0, 0.01, (num_input, 1))
b = nd.zeros(1,)
w.attach_grad()
b.attach_grad()
# print(w ,b)
# 开始训练
net = linreg
loss = square_loss
lr = 0.01
epochs = 5
for epoch in range(epochs):
for x, y in data_iter(batch_size, features, labels):
with autograd.record():
l = loss(net(x, w, b), y)
l.backward()
sgd([w, b], lr, batch_size)
train_l = loss(net(features, w, b), labels)
print('epoch %d , loss %f' % (epoch + 1, train_l.mean().asnumpy()))
print("用时%f sec"%(time()-stat))
print(w,true_w,'\n')
print(b,true_b)
输出结果: