平方损失函数

最新推荐文章于 2023-12-06 13:28:30 发布

Vici__

最新推荐文章于 2023-12-06 13:28:30 发布

阅读量1.5w

点赞数 2

分类专栏： private

本文链接：https://blog.csdn.net/Vici__/article/details/100184798

版权

private 专栏收录该内容

166 篇文章 13 订阅

订阅专栏

一、简介

损失函数是一个非负实数函数，用来量化模型预测和真实标签之间的差异。

其中，平方损失函数经常用在预测标签y为实数值的任务中，一般不适用于分类问题。

平方损失函数公式， $y$ 为真实值， $\bar{y}$ 为预测值：

$J(\theta)=\frac{1}{2}(y-\bar{y})^2$ $(1)$

二、为什么回归问题中损失函数可以用平方形式？（平方损失函数的由来）

基础准备：

正态分布 $X\sim N(\mu ,\sigma ^{2})$ ，连续型随机变量X的概率密度为：
$f(x)=\frac{1}{\sqrt{2\pi \sigma }} e^{-\frac{(x-\mu )^{2}}{2 \sigma^{2}}}$ $(2)$
设总体X的概率密度为 $f(x,\theta )$ ，其中 $\theta$ 为未知参数， $(x_{1},x_{2},...,x_{n})$ 是一次试验中所获得的样本观察值，则似然函数为
$L(\theta ,x_{1},x_{2},\cdot\cdot\cdot ,x_{n})=\prod_{n}^{j=1}f(x_{j},\theta )$ $(3)$

证明：

设 $y$ 为真实值， $\bar{y}$ 为预测值，x为输入， $\epsilon$ 为误差

则：

$\left\{\begin{matrix} y^{(i)}-\bar{y^{(i)}}=\epsilon ^{(i)}\\ y^{(i)} = \theta^Tx^{(i)} \end{matrix}\right.$

整理可得：
$y^{(i)} = \theta^Tx^{(i)} + \epsilon^{(i)}$

假设 $\epsilon^{(i)} \thicksim \mathcal{N}(0,\sigma^2)$ ，分布是均值为0，方差为 $\sigma^2$ 的正态分布，那么根据公式(2)可得，的概率密度为：

$f(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}\mathrm{exp}\biggl(-\frac{(\epsilon^{(i)})^2}{2\sigma^2}\biggl)$

整理后等价于：

$f(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}\mathrm{exp}\biggl(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\bigg)$

根据似然函数的定义得:

$\begin{align*} L(\theta) &= \prod_{i=1}^nf(y^{(i)}|x^{(i)};\theta) \\ &= \prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\mathrm{exp}\biggl(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\biggr) \end{align*}$

两边同取log，得：

$\begin{align*} \mathrm{log}L(\theta) &=\mathrm{log}\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\mathrm{exp}\bigg(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\bigg) \\&= \sum_{i=1}^n\mathrm{log}\frac{1}{\sqrt{2\pi}\sigma}\mathrm{exp}\bigg(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\bigg) \\ &=-n\mathrm{log}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}\cdot\frac{1}{2}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2\end{align*}$