机器学习术语总结-3--个人向

PS:一只正在学习机器学习的菜鸟。术语组成主要是深度学习(入门圣经)+维基百科+自己的理解。写这个主要是因为在自己学习过程中有一些术语查了又忘,忘了又查。。。所以写篇博客记录一下,术语不是按学习顺序记录的。都是基于自己的理解写出来的话,比较通俗易懂,错误的还请大家指正。同时会在文末放上自己学习上没弄明白的点,也希望大神能评论指出。
一.术语

1.softmax函数

在数学,尤其是概率论和相关领域中,Softmax函数,或称归一化指数函数[1]:198,是逻辑函数的一种推广。它能将一个含任意实数的K维向量 {\displaystyle \mathbf {z} }“压缩”到另一个K维实向量 {\displaystyle \sigma (\mathbf {z} )}  中,使得每一个元素的范围都在{\displaystyle (0,1)}之间,并且所有元素的和为1。该函数的形式通常按下面的式子给出:

                                                                        {\displaystyle \sigma (\mathbf {z} )_{j}={\frac {e^{z_{j}}}{\sum _{k=1}^{K}e^{z_{k}}}}}    for j = 1, …, K

2.one-hot向量

只有一个元素为 1,其余元素都为 0 的向量。

3.异方差模型

异方差(Heteroscedasticity):指一系列的随机变量其方差不相同。

我们可能希望模型对不同的 x 值预测出 y 不同的方差。这被称为 异 方差(heteroscedastic)模型。

当我们利用普通最小平方法(Ordinary Least Squares)进行回归估计时,常常做一些基本的假设。其中之一就是误差项(Error term)的方差是不变的。异方差是违反这个假设的。如果普通最小平方法应用于异方差模型,会导致估计出的方差值是真实方差值的偏误估计量(Biased standard error), 但是估计值(estimator)是不偏离的(unbiased)。

4.多峰回归(multimodal regression)

多峰回归 ,多模态回归,即预测条件分布 p(y | x) 的实值,该条件分布对于相同的 x 值在 y 空间中有多个不同的峰值。

(其实这个我也不太理解,是指多个输出结果么?欢迎评论留言)

5.高斯混合模型(Gaussian Mixed Model)

将高斯混合作为其 输出的神经网络通常被称为 混合密度网络(mixture density network)

高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。简单来说就是数据集中的样本来自于多个不同的分布,比如说身高数据,虽然两个都可以用高斯分布模型来表示,但是男生和女生的身高分布是不同的(女生的身高普遍会比男生要低一些)。

6.混合密度网络(mixture density network)

将高斯混合作为其 输出的神经网络通常被称为 混合密度网络。

7.线性映射

线性代数
在数学中,线性映射(有的书上将“线性变换”作为其同义词,有的则不然)是在两个向量空间(包括由函数构成的抽象的向量空间)之间的一种保持向量加法和标量乘法的特殊映射。

看例子

{\displaystyle V}{\displaystyle W}是在相同域 {\displaystyle K}上的向量空间。法则{\displaystyle f:V\rightarrow W}被称为是线性映射,如果对于{\displaystyle V}中任何两个向量 {\displaystyle x}{\displaystyle y}{\displaystyle K}中任何标量 {\displaystyle a},满足下列两个条件:

可加性:    {\displaystyle f(x+y)=f(x)+f(y)\,}
齐次性:    {\displaystyle f(ax)=af(x)\,}
这等价于要求对于任何向量 {\displaystyle x_{1},\ldots ,x_{m}}和标量 {\displaystyle a_{1},\ldots ,a_{m}}

方程{\displaystyle f(a_{1}x_{1}+\cdots +a_{m}x_{m})=a_{1}f(x_{1})+\cdots +a_{m}f(x_{m})} 成立。 

8.仿射变换


一个使用仿射变换所制造有自相似性的分形仿射变换,又称仿射映射,是指在几何中,一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间。一个对向量 {\displaystyle {\vec {x}}}平移 {\displaystyle {\vec {b}}},与旋转放大缩小 {\displaystyle A}的仿射映射为

{\displaystyle {\vec {y}}=A{\vec {x}}+{\vec {b}}}

9.绝对值整流,渗漏整流线性单元和参数化整流线性单元

整流线性单元的三个扩展基于当 zi < 0 时使用一个非零的斜率 αi:hi = g(z, α)i = max(0, zi) + αi min(0, zi)。 绝对值整流(absolute value rectification)固 定 αi = −1 来得到 g(z) = |z|。它用于图像中的对象识别 (Jarrett et al., 2009a), 其中 寻找在输入照明极性反转下不变的特征是有意义的。整流线性单元的其他扩展比这 应用地更广泛。渗漏整流线性单元(Leaky ReLU)(Maas et al., 2013) 将 αi 固定成 一个类似 0.01 的小值, 参数化整流线性单元(parametric ReLU)或者 PReLU 将αi 作为学习的参数 (He et al., 2015)。

10.maxout单元(maxout unit)

maxout 单元(Goodfellow et al., 2013a) 进一步扩展了整流线 性单元。maxout 单元将 z 划分为每组具有 k 个值的组,而不是使用作用于每个元素的函数 g(z)。每个maxout 单元则输出每组中的最大元素。maxout 单元可以学习具有多达 k 段的分段线性的凸函数。maxout 单元因此可 以视为学习激活函数本身而不仅仅是单元之间的关系。使用足够大的 k,maxout 单元可以以任意的精确度来近似任何凸函数。

11.灾难遗忘(catastrophic forgetting)

这个现象是说神经网络忘记 了如何执行它们过去训练的任务。

二.问题

最大似然框架也使得学习高斯分布的协方差矩阵更加容易,或更容易地使高斯 分布的协方差矩阵作为输入的函数。然而,对于所有输入,协方差矩阵都必须被限 定成一个正定矩阵。线性输出层很难满足这种限定,所以通常使用其他的输出单元 来对协方差参数化。

1.为什么协方差矩阵必须被限定成一个正定矩阵?

2.为什么线性输出层很难满足这种限定?

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值