秦皇岛第二天

Classification:分类;类别
prior:在先的;优先的
gaussian distribution:高斯分布
adagrad
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
损失函数;损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。例如在统计学和机器学习中被用于模型的参数估计(parameteric estimation)[1],在宏观经济学中被用于风险管理(risk mangement)和决策[2],在控制理论中被应用于最优控制理论(optimal control theory)[3]。
回归问题
回归问题所对应的损失函数为L2损失函数和L1损失函数,二者度量了模型估计值与观测值之间的差异:

式中为真实值的权重。各类回归模型,例如线性回归、广义线性模型(Generalized Linear Model, GLM)和人工神经网络(Artificial Neural Network, ANN)通过最小化L2或L1损失对其参数进行估计。L2损失和L1损失的不同在于,L2损失通过平方计算放大了估计值和真实值的距离,因此对偏离观测值的输出给予很大的惩罚。此外,L2损失是平滑函数,在求解其优化问题时有利于误差梯度的计算;L1损失对估计值和真实值之差取绝对值,对偏离真实值的输出不敏感,因此在观测中存在异常值时有利于保持模型稳定。

分类问题
分类问题所对应的损失函数为0-1损失,其是分类准确度的度量,对分类正确的估计值取0,反之取1:

0-1损失函数在本质上是一个不连续的分段函数,不利于求解其优化问题,因此在应用可构造其代理损失(surrogate loss)。代理损失是与原损失函数具有相合性(consistency)的损失函数,最小化代理损失所得的模型参数也是最小化原损失函数的解。研究表明,当一个函数是连续凸函数,并在任意取值下是0-1损失函数的上界时,该函数可作为0-1损失函数的代理函数[5][6]。

这里给出二元分类(binary classification)中0-1损失函数的代理损失,其中表示观测值的类别:

铰链损失函数(hinge loss function)
交叉熵损失函数(cross-entropy loss function)
指数损失函数(exponential loss function)
铰链损失(实线)、交叉熵损失(点)、指数损失(虚线)
铰链损失(实线)、交叉熵损失(点)、指数损失(虚线)
表中铰链损失函数是一个分段连续函数,其在分类器分类完全正确时取0。使用铰链损失对应的分类器是支持向量机(Support Vector Machine, SVM),铰链损失的性质决定了SVM具有稀疏性,即分类正确但概率不足1和分类错误的样本被识别为支持向量(support vector)参与模型求解,其余分类完全正确的样本被模型排除[6]。

交叉熵损失函数是一个平滑函数,其本质是信息理论(information theory)中的交叉熵(cross entropy)在分类问题中的应用。由交叉熵的定义可知,最小化交叉熵等价于最小化观测值和估计值的相对熵(relative entropy),即两者概率分布的Kullback-Leibler散度:,因此其是一个提供无偏估计的代理损失。交叉熵损失函数是表中使用最广泛的代理损失,对应的分类器例子包括logistic回归、人工神经网络和概率输出的支持向量机。

指数损失函数是表中对错误分类施加最大惩罚的损失函数,因此其优势是误差梯度大,对应的极小值问题在使用梯度算法时求解速度快。使用指数损失的分类器通常为自适应提升算法(Adaptive Boosting, AdaBoost),AdaBoot利用指数损失易于计算的特点,构建多个可快速求解的“弱”分类器成员并按成员表现进行赋权和迭代得到可靠结果。

逻辑回归解决的是分类问题。为什么选择sigmoid函数呢,有人说是为了将线性回归的值压缩到0-1之间,但是符合这个条件的函数有很多,为什么偏偏选择了sigmoid函数。

一句话解释:因为作为广义线性模型(GLM)中的一类,逻辑回归的连接函数的 canonical 形式就是 sigmoid函数

sigmod函数
1、指数族分布
指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布:

统计中很多熟悉的概率分布都是指数族分布的特定形式,如伯努利分布,高斯分布,多项分布, 泊松分布等

2.广义线性模型(GLM)
指数家族的问题可以通过广义线性模型来解决。如何构建GLM呢?在给定 [公式] 和参数后, [公式] 的条件概率 [公式] 需要满足下面三个假设:

[公式] 服从指数族分布
给了 [公式] , 我们的目的是为了预测 [公式] 在条件 [公式] 下的期望。
[公式] ,即 [公式] 和 [公式] 是线性的

3、伯努利分布的指数族形式
伯努利分布就是我们常见的0-1分布,即它的随机变量只取0或者1,各自的频率分别取 [公式] 和 [公式] ,我们数学定义为: [公式]

将伯努利分布写成指数族形式则有:

[公式]

其中

[公式]

[公式]

[公式]

[公式]

4、逻辑回归
考虑LR二分类问题,y∈0,1,因为是二分类问题,我们很自然的假设分类结果y服从伯努利分布。由上面的伯努利分布的指数族形式可知,其 [公式] ,这就意味着我们希望预测 [公式]

而根据伯努利分布期望性质,有

[公式] ,又由可知

[公式] ,

因此,

[公式]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值