概率论-----期望和方差

知识点:

一:均值和协方差

     1.当X,Y无关时,E(XY)=E(X)E(Y)

       2.D(X)=E(X^2)-(E(X))^2

      此时,E(X(X+Y-2))=E(X^2+XY-2X)=E(X^2)+E(XY)-2E(X)

二:PDF,PMF,CDF

     PDF:概率密度函数,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。 是连续变量特有的,取值本身不是概率,是一种趋势,积分后才是概率。

     PMF:概率质量函数,是离散随机变量在各特定取值上的概率。

     CDF:累计分布函数,是PDF的积分,分布函数F(x)在x点处的函数值表示X落在区间(-∞,x]内的概率。

三:机器学习中的范数规则化(L0,L1,L2范数)

一般来说,监督学习可以看作最小化下面的目标函数:

                 

       其中,第一项L(yi,f(xi,w))是衡量模型(分类或者回归)对第i个样本预测值f(xi;w)和真实值yi之间的误差。通常,不仅需要误差值最小,同时也需要让模型更加简单,即加上第二项,也就是对参数w的规则化约束函数Ω(w)去约束我们的模型尽可能的简单。

      规则化函数Ω(w)有多种选择,一般是模型复杂度的单调递增函数,模型越复杂,规则化值就越大。比如,规则化项可以是模型参数向量的范数,常用的有L0,L1和L2范数。

      L0范数是指向量中非0的个数,用L0范数来规划一个参数矩阵W,即希望W的大部分元素都为0,即让参数是稀疏的

      L1范数是指向量中各个元素绝对值之和,L1范数会使权值稀疏。参数稀疏能实现特征的自动选择,尽量去掉没用的特征,产生少量的特征。同时使得模型更容易解释。由于L0范数是难求解,L1范数是L0范数的最优凸近似,所以使用范围较广。

      L2范数是向量各元素平方和然后求平方根,用L2范数使得W的每个元素都很小,接近于0,从而在一定程度上避免了过拟合,提升模型的泛化能力。同时,有助于优化计算,处理condition number(输入稍微改变一点,输出就发生很大变化)不好的情况下矩阵求逆困难的问题。还可以使得优化求解变得稳定和快速。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值