目录
Task01
0绪论
0.1深度学习的起源与发展
0.1.1深度学习的起源阶段
(1)1943年,心理学家麦克洛克和数学逻辑学家皮兹发表论文《神经活动中内在思想的逻辑演算》,提出了MP模型。
(2)1949年,加拿大著名心理学家唐纳德赫布在《行为的组织》中提出了一种基于无监督学习的规则————海布学习规则(Hebb Rule)。
(3)20世纪50年代末,在MP模型和海布学习规则的研究基础上,美国科学家罗森布拉特发现了一种类似于人类学习过程的学习算法——感知机学习。并于1958年,正式提出了由两层神经元组成的神经网络,称之为“感知器”。
(4)在1969年,“AI之父”马文·明斯基和LOGO语言的创始人西蒙·派珀特共同编写了一本书籍《感知器》,在书中他们证明了单层感知器无法解决线性不可分问题(例如:异或问题)。
0.1.2深度学习的发展阶段
(1)1982年,著名物理学家约翰·霍普菲尔德发明了Hopfield神经网络。Hopfield神经网络是一种结合存储系统和二元系统的循环神经网络。
(2)1986年,深度学习之父杰弗里·辛顿提出了一种适用于多层感知器的反向传播算法——BP算法。BP算法在传统神经网络正向传播的基础上,增加了误差的反向传播过程。
(3)由于八十年代计算机的硬件水平有限使得BP算法受到了极大限制,以及SVM等其他浅层机器学习算法的提出,在分类回归等问题上取得了不错的效果,人工神经网络的发展再次陷入瓶颈。
0.1.3深度学习的爆发阶段
(1)2006年,杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度学习的概念。他们在世界顶级学术期刊《科学》发表的一篇文章中详细的给出了“梯度消失”问题的解决方案——通过无监督的学习方法逐层训练算法,再使用有监督的反向传播算法进行调优。
(2)2012年,在著名的ImageNet图像识别大赛中,杰弗里·辛顿领导的小组采用深度学习模型AlexNet一举夺冠。
(3)2014年,Facebook基于深度学习技术的DeepFace项目,在人脸识别方面的准确率已经能达到97%以上,跟人类识别的准确率几乎没有差别。
(4)2016年,随着谷歌公司基于深度学习开发的AlphaGo以4:1的比分战胜了国际顶尖围棋高手李世石,深度学习的热度一时无两。后来,AlphaGo又接连和众多世界级围棋高手过招,均取得了完胜。这也证明了在围棋界,基于深度学习技术的机器人已经超越了人类。
(5)2017年,基于强化学习算法的AlphaGo升级版AlphaGo Zero横空出世。其采用“从零开始”、“无师自通”的学习模式,以100:0的比分轻而易举打败了之前的AlphaGo。
0.2深度学习的定义与应用场景
0.2.1深度学习的定义
(1)定义:一般是指通过训练多层网络结构对未知数据进行分类或回归
(2)分类:分为有监督学习与无监督学习,两者的区别在于有无训练样本,监督学习是在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律,针对数据建模。
0.2.2深度学习的应用场景
(1)图像处理领域:图像分类、物体检测、图像分割、图像回归
(2)语音识别领域:语音识别、声纹识别、语音合成
(3)自然语言处理领域:语音模型、情感分析、神经机器翻译、神经自动摘要、机器阅读理解、自然语言推理
(4)综合应用:图像描述、可视问答、图像生成、视频生成
1深度学习的数学基础
1.1矩阵论相关知识
1.1.1矩阵论基本定义
(1)矩阵:一个二维数组。
(2)张量:是矢量概念的推广,可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。
(3)矩阵的秩:矩阵列向量中的极大线性无关组的数目。
(4)矩阵的逆:
逆矩阵满足以下条件,则称为矩阵A的逆矩阵:
其中 是 n×n 的单位阵。
(5)矩阵的广义逆矩阵:对于矩阵A,如果存在矩阵 B 使得 ABA=A,则称 B 为 A 的广义逆矩阵。
(6)特征值与特征向量:若矩阵A为方阵,则存在非零向量x和常数λ 满足Ax=λx,则称aλ 为矩阵A 的一个特征值,x为矩阵A关于λ的特征向量。
(7)矩阵的迹:
(8)行列式的值:
1.1.2矩阵分解
(1)矩阵特征分解:的矩阵具有n个不同的特征值,那么矩阵A可以分解为。
(2)奇异值分解:对于任意矩阵,存在正交矩阵和,使得其满足 ,则称上式为矩阵A的特征分解。
1.2概率分布与数理统计相关知
1.2.1随机变量
随机变量(Random variable)是随机事件的数量表现,随机事件数量化的好处是可以用数学分析的方法来研究随机现象。
随机变量通常用概率分布来指定它的每个状态的可能性。
1.2.2常见概率分布
(1)伯努利分布:又称0-1分布,单个二值型离散随机变量的分布
(2)二项分布:二项分布即重复n次伯努利试验,各试验之间都相互独立
(3)均匀分布:均匀分布,又称矩形分布,在给定长度间隔[a,b]内的分布概率是等可能的,均匀分布由参数a,b定义
(4)高斯分布:高斯分布,又称正态分布(normal),是实数中最常用的分布,由均值μ和标准差σ决定其分布
(5)指数分布:常用来表示独立随机事件发生的时间间隔
1.2.3多变量概率分布
(1)条件概率:事件X在事件Y发生的条件下发生的概率
(2)联合概率:表示两个事件X和Y共同发生的概率
(3)先验概率:根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现
(4)后验分布:指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因”,后验概率是基于新的信息,修正后来的先验概率所获得 的更接近实际情况的概率估计。
(5)全概率分布:设事件是样本空间Ω的一个划分,且,那么:
(6)贝叶斯公式:
1.2.4常用统计量
(1)方差:用来衡量随机变量与数学期望之间的偏离程度。
(2)协方差:衡量两个随机变量X和Y直接的总体误差
1.3信息论相关知识
1.3.1熵
信息熵,可以看作是样本集合纯度一种指标,也可以认为是样本集合包含的平均信息量。
1.3.2联合熵
两个随机变量X和Y的联合分布可以形成联合熵,度量二维随机变量XY的不确定性:
1.3.3条件熵
在随机变量X发生的前提下,随机变量Y发生带来的熵,定义为Y的条件熵,用H(Y|X)表示,定义为:
1.3.4互信息
1.3.5相对熵
相对熵又称KL散度,是描述两个概率分布P和Q差异的一种方法,记做D(P||Q)。
1.3.6交叉熵
一般用来求目标与预测值之间的差距,深度学习中经常用到的一类损失函数度量,定义如下:
1.4最优化估计
1.4.1最小二乘估计
最小二乘估计又称最小平方法,是一种数学优化方法。它通过最小化误差的平方和寻找数据的最佳函数匹配。最小二乘法经常应用于回归问题,可以方便地求得未知参数,比如曲线拟合、最小化能量或者最大化熵等问题。
Task02
2机器学习基础
2.1基本概念
2.1.1机器学习
(1)机器学习:机器学习是指让计算机具有像人一样的学习和思考能力的技术的总称。具体来说是从已知数据中获得规律,并利用规律对未知数据进行预测的技术。
(2)机器学习分类:
有监督学习:有老师(环境)的情况下,学生(计算机)从老师(环境)那里获得对错指示、最终答案的学习 方法。
无监督学习:没有老师(环境)的情况 下,学生(计算机)自学的过程,一般使用一些既定标准进行评价。
强化学习:没有老师(环境)的情况下, 学生(计算机)对问题答案进行自我评价的方法。
2.1.2数据集
(1)数据集:观测样本的集合。具体地,表示一个包含n个样本的数据集,其中是一个向量,表示数据集的第i个样本,其维度d称为样本空间的维度。
(2)数据集分类:
①训练集:用于模型拟合的数据样本;
②验证集:是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估;
③测试集:用来评估模最终模型的泛化能力。但不能作为调 参、选择特征等算法相关的选择的依据。
2.2误差分析
2.2.1基本概念
(1)训练误差:模型在训练集上的误差
(2)泛化误差:模型在总体样本上的误差
(3)测试误差:模型在测试集上的误差
(4)过拟合:模型能很好地拟合训练样本,而无法很好地拟合测试样本的现象,从而导致泛化性能下降
(5)欠拟合:模型还没有很好地训练出数据的一般规律,模型拟合程度不高的现象
2.2.1泛化误差分析
假设数据集上需要预测的样本为Y,特征为X,潜在模型为 Y=f(X)+ε,其中是噪声, 估计的模型为.
2.2.2交叉验证
将训练集划分为K份,每次采用其中K-1份作为训练集, 另外一份作为验证集,在训练集上学得函数后,然后在验证集上计 算误差---K折交叉验证。
2.3有监督学习
2.3.1线性回归
线性回归是在样本属性和标签中找到一个线性关系的方法,根据训练数据找到一个线性模型,使得模型产生的预测值与样本标签的差距最小。
若用表示第𝑘个样本的第𝑖个属性,则线性模型一般形式为:
线性回归学习的对象就是权重向量𝑤和偏置向量𝑏。如果用最小均方 误差来衡量预测值与样本标签的差距,那么线性回归学习的目标可以表示为:
2.3.2逻辑回归
逻辑回归是利用𝑠𝑖𝑔𝑚𝑜𝑖𝑑函数,将线性回归产生的预测值压缩到0和1之间。此时将𝑦视作样本为正例的可能性,即
2.3.3支持向量机
支持向量机是有监督学习中最具有影响力的方法之一,是基于线性判别函数的一种模型。
SVM基本思想:对于线性可分的数据,能将训练样本划分开的超平 面有很多,于是我们寻找“位于两类训练样本正中心的超平面”, 即margin最大化。从直观上看,这种划分对训练样本局部扰动的承 受性最好。事实上,这种划分的性能也表现较好。
2.3.4决策树
决策树是一种基于树结构进行决策的机器学习方法,这恰是人类面临决策 时一种很自然的处理机制。
- 在这些树的结构里,叶子节点给出类标而内部节点代表某个属性;
- 例如,银行在面对是否借贷给客户的问题时,通常会进行一系列的决 策。银行会首先判断:客户的信贷声誉是否良好?良好的话,再判断 客户是否有稳定的工作? 不良好的话,可能直接拒绝,也可能判断客 户是否有可抵押物?......这种思考过程便是决策树的生成过程。
决策树的生成过程中,最重要的因素便是根节点的选择,即选择哪种特征作为决策因素:ID3算法使用信息增益作为准则。
2.3.5随机森林
(1)基本概念
-
集成学习(Ensemblelearning)
- 组合多个弱监督模型以期得到一个更好更全面的强监督模型,集成学 习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分 类器也可以将错误纠正回来。
-
随机森林用随机的方式建立起一棵棵决策树,然后由这些决策树组成 一个森林,其中每棵决策树之间没有关联,当有一个新的样本输入 时,就让每棵树独立的做出判断,按照多数原则决定该样本的分类 结果。
(2)随机森林构建的基本步骤
- 随机有放回地从训练集中的抽取m个训练样本,训练集 D_tDt.
- 从 D_tDt 对应的特征属性中随机选择部分特征,构建决策树
- 重复上述步骤构建多个决策树
(3)预测步骤
- 向建立好的随机森林中输入一个新样本
- 随机森林中的每棵决策树都独立的做出判断
- 将得到票数最多的分类结果作为该样本最终的类别
2.4无监督学习
2.4.1聚类
聚类的目的是将数据分成多个类别,在同一个类内,对象(实体)之间具 有较高的相似性,在不同类内,对象之间具有较大的差异。
对一批没有类别标签的样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为其它类。这种分类称为聚类分析,也 称为无监督分类
常见方法有K-Means聚类、均值漂移聚类、基于密度的聚类等
2.4.2降维
降维的目的就是将原始样本数据的维度𝑑降低到一个更小的数𝑚,且尽量使得样本蕴含信息量损失最小,或还原数据时产生的误差最小。比如主成分分析法...