1.参数检验/非参数检验
参数检验:通过样本预测分布的参数,需要预知变量分布模型
非参数检验:通过样本预测分布形态,无需预知变量分布模型
参考百度
2.统计学习方法的模型,策略,算法
讨论方法:概率法,实数域的映射法
回想昨天的贝叶斯方法的公式,有异曲同工的感觉。
1.特征空间:对于映射f,如果f(x) = λx,x是特征向量,λ是特征向量,特征空间是针对特定的映射f的特征空间
2.假设空间:从输入到输出的所有映射f所组成的集合
模型:在假设空间找的合适的映射f
策略:按照什么准则学习(比如代价函数的选择)
Q:从理论的角度,为什么要正则化?
A:我们要学习的f,不仅仅是要它在已知样本中得到正确的x-->y的映射,而且要能够预测未知的样本,这也就是说,我们需要知道先验知识x,y的联合分布p(x,y)
代价的期望其实应该是:
但是p(x,y)是不可知的,所以要用从样本中的到的经验损失(下式)来近似代替期望代价,根据大数定理,当N-->正无穷,期望代价就近似等于经验代价
那么也就是说,当N比较小时,可能就会出现过拟合现象,这时就需要正则化
算法:
3.交叉熵,相对熵。参考. 一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉
需要知道:
1.交叉熵与相对熵的概念应用在神经网络的代价函数。也就是说可以用来衡量预测和label的分布的接近程度
2.相对熵非负性证明:https://blog.csdn.net/KID_yuan/article/details/84800434
4.sigmoid/softmax
预备知识:
1.理论上,代价函数可以定义在神经网络的任意一层,虽然我们往往定义在最后一层。(感觉这句话与这部分内容无关。。)
2.在深度学习中常常使用交叉熵作为代价函数,原因是可以解决像MSE的饱和(FLAT,梯度在某个区间特别小,造成学习困难)问题。为什么可以解决饱和问题?答案请看log函数在[0,1]区间的梯度变化
3.用概率方法考虑问题时,对于最后一层,我们可以这样预测
它产生了一个问题是,当z不在[0,1]区间时,梯度就会变成零,这样就无法进行学习
Q:为什么sigmoid函数很多情况作为最后一层?
A:先考虑二分类问题,先不考虑一个神经网络的中间层,只考虑输入x到输出的映射y,如果用概率论的方式思考问题,那么神经网络的最后一层应该输出[0,1],这时就涉及到归一化的问题,而在预备知识中说道,我们用交叉熵作为代价函数,这个形式决定了这里用的归一化函数是sigmoid函数,也就是取指数。解释如下:
对指数sigmoid取对数之后
Q:课表上在考虑时用的下面这一步,为什么是yz,然后怎么变化成σ((2y-1)z)的
A:不懂。。