1.概述
人工智能定义:是用机器去实现所有目前必须借助人类智慧才能实现的任务。其具体研究、开发用于模拟、延伸和拓展人的智能的理论、方法、技术及应用系统。
人工神经网络:是从微观结构与功能上模拟人脑神经系统而建立的一类模型,是模拟人的智能的一条途径。信息处理由人工神经元间的相互作用来实现,由联接权来传递,具有学习能力、自适应性、联接强度的可变性。
神经网络与深度学习发展:三起两落。
人工智能发展的三种级别:弱人工智能、强人工智能、超人工智能。
人工智能第三次崛起的三大基石:数据(基础)、算法(引擎)、计算(平台)。
2.线性分类与感知机
线性回归定义:利用数理统计中回归分析,来确定两种或者两种以上变量间相互依赖的定量关系的一种统计分析方法。
线性回归要素:训练集、输出数据、模型。
线性分类定义:线性分类器透过特征的线性组合来做出分类决定,要求样本通过直线(或超平面)可分。
线性分类变换函数:Sigmoid函数。
线性分类优化方法:梯度下降法。
神经元模型:Spiking模型,Integrate-and-fire模型,M-P模型。
单神经元作用函数:Log Sigmoid,Tangent Sigmoid,对称型阶跃函数。
权值调整规则:Hebb规则Δw=α*x*y
感知机模型:(1)赋初值。(2)选择数据点。(3)判断是否为误分类点,若是则按照Hebb规则更新权值。(4)转到(2),直到没有误分类点。
3.多层前馈网络与误差反传算法
多层感知机:在输入和输出层间添加一或多层隐单元,构成多层前馈神经网络。
多层前馈网络的反向传播(BP)学习算法:由正向传播和反向传播组成,正向传播是输入信号从输入层经隐层,传向输出层,若输出层得到了期望的输出,则学习算法结束,否则转至反向传播。反向传播是将误差按原联接通路反向计算,由梯度下降法调整各层节点的权值和阈值,使误差减小。
算法优点:(1)学习完全自主。(2)可逼近任意非线性函数。
算法缺点:(1)算法非全局收敛。(2)收敛速度慢。(3)学习速率α需要选择。(4)神经网络需要设计。
4.性能优化
动量法:在更新过程中加入了动量项,可以在一定程度上解决病态曲率问题。
自适应梯度算法:学习率随学习过程动态变化。
AdaGrad:学习率反比于历史梯度平方值总和的平方根。
RMSProp:使用指数衰减平均以解决AdaGrad算法中学习率过度衰减的问题,还加入了超参数控制衰减速率。
Adam:在RMSProp方法的基础上更进一步,除了加入历史梯度平方的指数衰减平均外,还保留了历史梯度的指数衰减平均,相当于动量。