1、概述
人工智能(AI):是用机器去实现所有目前必须借助人类智慧才能实现的任务。其 具体研究、开发用于模拟、延伸和扩展人的智能的理 论、方法、技术及应用系统。
机器学习是人工智能的一个重要分支,是实现智能化的关键。其经典定义为:利用经验来改善计算机系统的性能。
(经验:在计算机系统中,即为数据(集); 主要目标:预测未知、理解系统。)
而机器学习存在局限,大量非结构化数据(语义不清楚、稀疏)使机器学习收效甚微结构化数据。因而引出了人工神经网络。
人工神经网络 (ANN): 是从微观结构与功能上模拟人脑神经系统而建立的一类 模型,是模拟人的智能的一条途径 信息处理由人工神经元间的相互作用来实现,由联接权 来传递,具有学习能力、自适应性、联接强度的可变性。
深度学习: 多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有 更本质的刻画,从而有利于可视化或分类。深度神经网络在训练上的难度,可以通过“逐层初始化”来有效克服,逐层初始化可通过无监督学习实现。
神经网络与深度学习应用趋势:计算机视觉,机器学习,图像识别,语音识别,机器人,自然语言处理。
2、线性分类与感知机
(1)线性回归:
定义:利用数理统计中回归分析,来确定两种或两种以上变量间相 互依赖的定量关系的一种统计分析方法。步骤如下:
寻求变量之间近似的函数关系,构造估计函数h(x):
获得训练集(样本数据):
构造代价函数:
目标为:找到超平面参数θ,使得J(θ)最小。
方法:
(2)线性分类
定义:线性分类器则透过特征的线性组合来做出分类决定,以达到此种目的。简言之,样本通过直线(或超平面)可分。
输入:特征向量
输出:哪一类。如果是二分类问题,则为0和1,或者是属于某类的 概率,即0-1之间的数。
考虑归一化问题,引入sigmod函数:
将线性回归问题变成了线性分类问题。但由于J为非线性,因此采用迭代方法,令J(θ)趋近于零,可利用梯度下降法构造:
(3)指数回归:
将二分类问题使用条件概率进行描述,重新修改指标函数可得:
对其最小化,可得:
可以取极大似然分布:
对此式子求最大值即为求得极值。
(4)多分类回归:
对于有k个标记的分类问题,构造分类函数:
需要引入多个超平面,并取代价函数:
对应梯度:
(5)神经元模型:
其中,作用函数f有如下常见形式:
①非对称型sigmod函数:
②对称型sigmod函数:
③对称型阶跃函数:
(6)感知机模型:
感知机是神经网络和支持向量机的基础。用于解决线性分类问题。
原理:直线方程ax+by+c=0,任意一点(x0,y0)到该直线的距离为
在高维情况下,分类面为超平面下距离公式为:
感知机从输入到输出的模型为:
其中sign(x)为符号函数 :
定义损失函数为:
因此最终相当于寻找超平面参数满足:
3、多层前馈网络与误差反传(BP)算法
多层感知机:在输入和输出层之间加一或多层隐单元,即构成了多层感知机(多层前馈神经网络)。
在面对线性不可分问题时,无法进行线性分类,就需要使用多层感知机。
多层前馈网络的反向传播 (BP)学习算法,简称BP算法,是有导师的学习,它是梯度下降法在多层前馈网中的应用。
网络结构:见图,u、y是网络的输入、输出向量,神经元用节点表示,网络由输入层、隐层和输出层节点组成,隐层可一层,也可多层(图中是单隐层),前层至后层节点通过权联接。由于用BP学习算法,所以常称BP神经网络。
BP学习算法由正向传播和反向传播组成:
① 正向传播是输入信号从输入层经隐层,传向输出层,若输出层得到了期望的输出,则学习算法结束;否则,转至反向传播。
② 反向传播是将误差(样本输出与网络输出之差)按原联接通路反向计算,由梯度下降法调整各层节点的权值和阈值,使误差减小。
BP算法基本步骤:
① 设置初始权系数w0为较小的随机非零值;
② 给定输入/输出样本对,计算网络输出, 完成前向传播;
③ 计算目标函数J。如J < ε, 训练成功,退出;否则转入④;
④ 反向传播计算 由输出层,按梯度下降法将误差反向传播,逐层调整权值。
算法优点:学习完全自主,可逼近任意非线性函数。
算法缺点:算法非全局收敛,收敛速度慢,学习速率α的选择问题,神经网络层数以及节点数设置问题。