Deep Learning
An MIT Press book
Ian Goodfellow and Yoshua Bengio and Aaron Courville
英文原版感谢大神在GitHub上共享自己的中文翻译:Deep-Learning中文PDF版
第二章 线性代数
1.张量
在某些情况下,我们会讨论坐标超过两维的数组。 一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们称之为张量。
2.范数
3.Moore-Penrose 伪逆
假设A是一个mxn的矩阵,那么U是一个mxm的矩阵,D是一个mxn的对角矩阵,V是一个nx n的矩阵。
4. 迹运算:
迹运算提供了另一种描述矩阵Frobenius 范数的方式:
第三章 概率与信息论
1、协方差
2. 信息论
在离散型变量的情况下,KL散度衡量的是,当我们使用一种被设计成能够使得概率分布 Q产生的消息的长度最小的编码,发送包含由概率分布 P产生的符号的消息时,所需要的额外信息量。KL散度是非负的并且衡量的是两个分布之间的差异,它经常被用作分布之间的某种距离。
交叉熵:
H(P,Q)=−Ex∼PlogQ(x) = H(P) +DKL(P||Q)
第四章 数值计算
1.方向导数
方向导数:是一个数;反映的是f(x,y)在P0点沿方向v的变化率。
梯度的方向就是函数f(x,y)在这点增长最快的方向,梯度的模为方向导数的最大值。
最速下降法就是使点的搜索方向与梯度方向相反,达到更为快速收敛的目的。
2.基本牛顿法:
流程:
- 给定终止误差值
,初始点
,令
;
- 计算
,若
,则停止,输出
;
- 计算
,并求解线性方程组得解
:
;
- 令
,
,并转2。
3.全局牛顿法
流程
4.KKT条件
第五章 机器学习基础
1. 学习算法
机器学习定义:对于某类任务T和性能度量 P,一个计算机程序被认为可以从经验 E中学习是指,通过经验 E改进后,它在任务T上由性能度量 P衡量的性能有所提升。
无监督学习算法训练含有很多特征的数据集,然后学习出这个数据集上有用的结构性质。 在深度学习中,我们通常要学习生成数据集的整个概率分布,显式地,比如密度估计,或是隐式地,比如合成或去噪。 还有一些其他类型的无监督学习任务,例如聚类,将数据集分成相似样本的集合。
监督学习算法训练含有很多特征的数据集,不过数据集中的样本都有一个标签或目标。 例如,Iris数据集注明了每个鸢尾花卉样本属于什么品种。 监督学习算法通过研究Iris数据集,学习如何根据测量结果将样本划分为三个不同品种。
欠拟合是指模型不能在训练集上获得足够低的误差。 而过拟合是指训练误差和和测试误差之间的差距太大。
2。交叉验证
3. 点估计
4.一致性
5.最大似然估计(MLE)
通常运用于解决模型已知,参数未知的情况!
注意:最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率,这点与贝叶斯估计区别。
最大似然估计解决线性回归
假设有一个w(此w并不是最终的w),对于每一个实际得到的数据我们都可以看成是由均值为w*xi,方差为sigema^2的一个高斯模型生成的。但是在w不定的情况下,高斯模型有无数种可能,我们需要从中选择一个我们想要的,而选择需要一个准则,该准则就是:使得在该模型下生成我们获得的数据的可能性最大。
问题来了,什么叫可能性最大?怎样来衡量?——>将每一个数据产生的概率连乘起来(似然函数),将该值最为总的数据产生的可能性。很容易理解。
其中y^i是线性回归在第i个输入xi上的输出(即w*xi),yi是样本实际值,σ为固定常量,m是训练样本的数目。
6.贝叶斯估计
先验概率、最大似然估计、贝叶斯估计、最大后验概率
1、先验分布。总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于总体分布参数θ的任何统计推断问题中,除了使用样本所提供的信息外,还必须规定一个先验分布,它是在进行统计推断时不可缺少的一个要素。他们认为先验分布不必有客观的依据,可以部分地或完全地基于主观信念。
2、后验分布。根据样本分布和未知参数的先验分布,用概率论中求条件概率分布的方法,求出的在样本已知下,未知参数的条件分布。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯推断方法的关键是任何推断都必须且只须根据后验分布,而不能再涉及样本分布。
贝叶斯公式为:
P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)
P(A|B)=P(B|A)*P(A)/P(B)
其中:
1、P(A)是A的先验概率或边缘概率,称作"先验"是因为它不考虑B因素。
2、P(A|B)是已知B发生后A的条件概率,也称作A的后验概率。
3、P(B|A)是已知A发生后B的条件概率,也称作B的后验概率,这里称作似然度。
4、P(B)是B的先验概率或边缘概率,这里称作标准化常量。
5、P(B|A)/P(B)称作标准似然度。
7.最大后验概率(MAP)
注:最大后验估计可以看做贝叶斯估计的一种特定形式。
各估计算法的区别:
- ML(最大似然估计):就是给定一个模型的参数θ,然后试着最大化p(D|θ)。即给定参数的情况下,看到样本集的概率。目标是找到使前面概率最大的参数。
- 逻辑回归都是基于ML做的;
- 缺点:不会把我们的先验知识加入模型中。
- MAP(最大后验估计):最大化p(θ|D)。
- Bayesian:我们的预测是考虑了所有可能的参数,即所有的参数空间(参数的分布)
MAP与ML最大的不同在于p(θ)项,MAP可以解决ML缺乏先验知识的缺点,将先验知识加入后,优化损失函数。
其实p(θ)项正好起到了正则化的作用。如:如果假设p(θ)服从高斯分布,则相当于加了一个L2 norm;如果假设p(θ)服从拉普拉斯分布,则相当于加了一个L1 norm
8.支持向量机(SVM)
最常用的核函数是高斯核:
我们可以认为高斯核在执行一种模板匹配。 训练标签 y相关的训练样本 x变成了类别y的模版。 当测试点x‘到x的欧几里得距离很小,对应的高斯核响应很大时,表明x’和模版x非常相似。 该模型进而会赋予相对应的训练标签 y较大的权重。 总的来说,预测将会组合很多这种通过训练样本相似度加权的训练标签。
Tips: 利用高斯核函数将低维数据映射到无限维,以达到线性可分的目的。
9.k均值聚类
k均值聚类初始化k个不同的中心点${u1},...,uk}$,然后迭代交换两个不同的步骤直到收敛。
步骤一,每个训练样本分配到最近的中心点ui所代表的聚类i。
步骤二,每一个中心点ui更新为聚类i中所有训练样本 xj的均值。
关于聚类的一个问题是聚类问题本身是病态的。 这是说没有单一的标准去度量聚类的数据在真实世界中效果如何。 我们可以度量聚类的性质,例如类中元素到类中心点的欧几里得距离的均值。 这使我们可以判断从聚类分配中重建训练数据的效果如何。 然而我们不知道聚类的性质是否很好地对应到真实世界的性质。 此外,可能有许多不同的聚类都能很好地对应到现实世界的某些属性。 我们可能希望找到和一个特征相关的聚类,但是得到了一个和任务无关的,同样是合理的不同聚类。
10.随机梯度下降
11.促使深度学习发展的挑战
维数灾难
流形学习