深度学习《面试》你可能需要知道的

列举常见的一些范数及其应用场景,如L0,L1,L2,L∞,Frobenius范数

范数定义
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
应用场景
在这里插入图片描述
L2正则化能让学习算法‘‘感知’’ 到具有较高方差的输入x,因此与输出目标的协方差较小(相对增加方差)的特征的权重将会收缩。
相比L2正则化,L1正则化会产生更稀疏(sparse)的解。此处稀疏性指的是最优值中的一些参数为0。和L2正则化相比,L1正则化的稀疏性具有本质的不同。
如果我们使用Hessian 矩阵H 为对角正定矩阵
的假设(与L1正则化分析时一样), L2正则化不会使参数变得稀疏,而L1正则化有可能通过足够大的 α \alpha α 实现稀疏。
由L1正则化导出的稀疏性质已经被广泛地用于特征选择(feature selection)机制。特征选择从可用的特征子集选择出有意义的特征,化简机器学习问题。著名的LASSO (Tibshirani, 1995)(Least Absolute Shrinkage and Selection Operator)模型将L1 惩罚和线性模型结合,并使用最小二乘代价函数。L1 惩罚使部分子集的权重为零,表明相应的特征可以被安全地忽略。

简单介绍一下贝叶斯概率与频率派概率,以及在统计中对于真实参数的假设。

概率论最初的发展是为了分析事件发生的频率。我们可以很容易地看出概率论,对于像在扑克牌游戏中抽出一手特定的牌这种事件的研究中,是如何使用的。这类事件往往是可以重复的。当我们说一个结果发生的概率为p,这意味着如果我们反复实验(例如,抽取一手牌) 无限次,有p 的比例可能会导致这样的结果。这种推理似乎并不立即适用于那些不可重复的命题。如果一个医生诊断了病人,并说该病人患流感的几率为40%,这意味着非常不同的事情——我们既不能让病人有无穷多的副本,也没有任何理由去相信病人的不同副本在具有不同的潜在条件下表现出相同的症状。在医生诊断病人的例子中,我们用概率来表示一种信任度(degree of belief),其中1 表示非常肯定病人患有流感,而0 表示非常肯定病人没有流感。前面那种概率,直接与事件发生的频率相联系,被称为频率派概率(frequentist probability);而后者,涉及到确定性水平,被称为贝叶斯概率(Bayesian probability)

概率密度的万能近似器

高斯混合模型是概率密度的万能近似器(universal
approximator),在这种意义下,任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。

简单介绍一下sigmoid,relu,softplus,tanh,RBF及其应用场景

sigmoid

logistic sigmoid 函数通常用来产生Bernoulli 分布中的参数ϕ,因为它的范围是(0; 1),处在ϕ 的有效取值范围内。图3.3 给出了sigmoid 函数的图示。sigmoid 函数在变量取绝对值非常大的正值或负值时会出现饱和(saturate)现象,意味着函数会变得很平,并且对输入的微小改变会变得不敏感。
softmax

softplus

softplus 函数可以用来产生正态分布的 β \beta β和参数 σ \sigma σ,因为它的范围是(0;1)。当处理包含sigmoid 函数的表达式时它也经常出现。softplus 函数名来源于它是另外一函数的平滑(或‘‘软化’’)形式,这个函数是 x + = m a x ( 0 , x ) x^+=max(0,x) x+=max(0,x)
softplus

ReLU

整流线性单元易于优化,因为它们和线性单元非常类似。线性单元和整流线性单元的唯一区别在于整流线性单元在其一半的定义域上输出为零。这使得只要整流线性单元处于激活状态,它的导数都能保持较大。它的梯度不仅大而且一致。整流操作的二阶导数几乎处处为0,并且在整流线性单元处于激活状态时,它的一阶导数处处为1。这意味着相比于引入二阶效应的激活函数来说,它的梯度方向对于学习来说更加有用。
整流线性单元的一个缺陷是它们不能通过基于梯度的方法学习那些使它们激活为零的样本。整流线性单元的各种扩展保证了它们能在各个位置都接收到梯度。

tanh

双曲正切激活函数通常要比logistic sigmoid 函数表现更好。在tanh(0) = 0 而 σ \sigma σ(0) = 1/2 的意义上,它更像是单位函数。因为tanh 在0 附近与单位函数类似,这使得训练tanh网络更极容易。

RBF

在这里插入图片描述

Jacobian,Hessian矩阵及其在深度学习中的重要性

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

KL散度在信息论中度量的是那个直观量

在离散型变量的情况下,KL 散度衡量的是,当我们使用一种被设计成能够使得概率分布Q 产生的消息的长度最小的编码,发送包含由概率分布P 产生的符号的消息时,所需要的额外信息量(如果我们使用底数为2 的对数时,信息量用比特衡量,但在机器学习中,我们通常用奈特和自然对数。)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值