参数检验/非参数检验+统计学习的模型策略算法+sigmoid/softmax+相对熵+交叉熵

1.参数检验/非参数检验

参数检验:通过样本预测分布的参数,需要预知变量分布模型

非参数检验:通过样本预测分布形态,无需预知变量分布模型

参考百度

2.统计学习方法的模型,策略,算法

讨论方法:概率法,实数域的映射法

回想昨天的贝叶斯方法的公式,有异曲同工的感觉。

1.特征空间:对于映射f,如果f(x) = λx,x是特征向量,λ是特征向量,特征空间是针对特定的映射f的特征空间

2.假设空间:从输入到输出的所有映射f所组成的集合

模型:在假设空间找的合适的映射f

策略:按照什么准则学习(比如代价函数的选择)

 Q:从理论的角度,为什么要正则化?

 A:我们要学习的f,不仅仅是要它在已知样本中得到正确的x-->y的映射,而且要能够预测未知的样本,这也就是说,我们需要知道先验知识x,y的联合分布p(x,y)

代价的期望其实应该是:

但是p(x,y)是不可知的,所以要用从样本中的到的经验损失(下式)来近似代替期望代价,根据大数定理,当N-->正无穷,期望代价就近似等于经验代价

那么也就是说,当N比较小时,可能就会出现过拟合现象,这时就需要正则化

算法

 

3.交叉熵,相对熵。参考. 一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉

需要知道:

1.交叉熵与相对熵的概念应用在神经网络的代价函数。也就是说可以用来衡量预测和label的分布的接近程度

2.相对熵非负性证明:https://blog.csdn.net/KID_yuan/article/details/84800434

4.sigmoid/softmax

预备知识:

1.理论上,代价函数可以定义在神经网络的任意一层,虽然我们往往定义在最后一层。(感觉这句话与这部分内容无关。。)

2.在深度学习中常常使用交叉熵作为代价函数,原因是可以解决像MSE的饱和(FLAT,梯度在某个区间特别小,造成学习困难)问题。为什么可以解决饱和问题?答案请看log函数在[0,1]区间的梯度变化

3.用概率方法考虑问题时,对于最后一层,我们可以这样预测

它产生了一个问题是,当z不在[0,1]区间时,梯度就会变成零,这样就无法进行学习

Q:为什么sigmoid函数很多情况作为最后一层?

A:先考虑二分类问题,先不考虑一个神经网络的中间层,只考虑输入x到输出的映射y,如果用概率论的方式思考问题,那么神经网络的最后一层应该输出[0,1],这时就涉及到归一化的问题,而在预备知识中说道,我们用交叉熵作为代价函数,这个形式决定了这里用的归一化函数是sigmoid函数,也就是取指数。解释如下:

对指数sigmoid取对数之后

Q:课表上在考虑时用的下面这一步,为什么是yz,然后怎么变化成σ((2y-1)z)的

A:不懂。。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值