PS:一只正在学习机器学习的菜鸟。术语组成主要是深度学习(入门圣经)+维基百科+自己的理解。写这个主要是因为在自己学习过程中有一些术语查了又忘,忘了又查。。。所以写篇博客记录一下,术语不是按学习顺序记录的。都是基于自己的理解写出来的话,比较通俗易懂,错误的还请大家指正。同时会在文末放上自己学习上没弄明白的点,也希望大神能评论指出。
一.术语
1.softmax函数
在数学,尤其是概率论和相关领域中,Softmax函数,或称归一化指数函数[1]:198,是逻辑函数的一种推广。它能将一个含任意实数的K维向量 “压缩”到另一个K维实向量 中,使得每一个元素的范围都在之间,并且所有元素的和为1。该函数的形式通常按下面的式子给出:
for j = 1, …, K.
2.one-hot向量
只有一个元素为 1,其余元素都为 0 的向量。
3.异方差模型
异方差(Heteroscedasticity):指一系列的随机变量其方差不相同。
我们可能希望模型对不同的 x 值预测出 y 不同的方差。这被称为 异 方差(heteroscedastic)模型。
当我们利用普通最小平方法(Ordinary Least Squares)进行回归估计时,常常做一些基本的假设。其中之一就是误差项(Error term)的方差是不变的。异方差是违反这个假设的。如果普通最小平方法应用于异方差模型,会导致估计出的方差值是真实方差值的偏误估计量(Biased standard error), 但是估计值(estimator)是不偏离的(unbiased)。
4.多峰回归(multimodal regression)
多峰回归 ,多模态回归,即预测条件分布 p(y | x) 的实值,该条件分布对于相同的 x 值在 y 空间中有多个不同的峰值。
(其实这个我也不太理解,是指多个输出结果么?欢迎评论留言)
5.高斯混合模型(Gaussian Mixed Model)
将高斯混合作为其 输出的神经网络通常被称为 混合密度网络(mixture density network)
高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。简单来说就是数据集中的样本来自于多个不同的分布,比如说身高数据,虽然两个都可以用高斯分布模型来表示,但是男生和女生的身高分布是不同的(女生的身高普遍会比男生要低一些)。
6.混合密度网络(mixture density network)
将高斯混合作为其 输出的神经网络通常被称为 混合密度网络。
7.线性映射
线性代数
在数学中,线性映射(有的书上将“线性变换”作为其同义词,有的则不然)是在两个向量空间(包括由函数构成的抽象的向量空间)之间的一种保持向量加法和标量乘法的特殊映射。
看例子
设 和 是在相同域 上的向量空间。法则被称为是线性映射,如果对于中任何两个向量 和与 中任何标量 ,满足下列两个条件:
可加性:
齐次性:
这等价于要求对于任何向量 和标量方程 成立。
8.仿射变换
一个使用仿射变换所制造有自相似性的分形仿射变换,又称仿射映射,是指在几何中,一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间。一个对向量 平移 ,与旋转放大缩小 的仿射映射为
9.绝对值整流,渗漏整流线性单元和参数化整流线性单元
整流线性单元的三个扩展基于当 zi < 0 时使用一个非零的斜率 αi:hi = g(z, α)i = max(0, zi) + αi min(0, zi)。 绝对值整流(absolute value rectification)固 定 αi = −1 来得到 g(z) = |z|。它用于图像中的对象识别 (Jarrett et al., 2009a), 其中 寻找在输入照明极性反转下不变的特征是有意义的。整流线性单元的其他扩展比这 应用地更广泛。渗漏整流线性单元(Leaky ReLU)(Maas et al., 2013) 将 αi 固定成 一个类似 0.01 的小值, 参数化整流线性单元(parametric ReLU)或者 PReLU 将αi 作为学习的参数 (He et al., 2015)。
10.maxout单元(maxout unit)
maxout 单元(Goodfellow et al., 2013a) 进一步扩展了整流线 性单元。maxout 单元将 z 划分为每组具有 k 个值的组,而不是使用作用于每个元素的函数 g(z)。每个maxout 单元则输出每组中的最大元素。maxout 单元可以学习具有多达 k 段的分段线性的凸函数。maxout 单元因此可 以视为学习激活函数本身而不仅仅是单元之间的关系。使用足够大的 k,maxout 单元可以以任意的精确度来近似任何凸函数。
11.灾难遗忘(catastrophic forgetting)
这个现象是说神经网络忘记 了如何执行它们过去训练的任务。
二.问题
最大似然框架也使得学习高斯分布的协方差矩阵更加容易,或更容易地使高斯 分布的协方差矩阵作为输入的函数。然而,对于所有输入,协方差矩阵都必须被限 定成一个正定矩阵。线性输出层很难满足这种限定,所以通常使用其他的输出单元 来对协方差参数化。
1.为什么协方差矩阵必须被限定成一个正定矩阵?
2.为什么线性输出层很难满足这种限定?