吴恩达机器学习课程之参数拟合_如何用机器学习拟合一个函数中的参数-CSDN博客

本文链接：https://blog.csdn.net/gdutLHD/article/details/78755209

本文介绍了参数拟合的基本概念，包括过拟合与欠拟合，并对比了参数学习算法与非参数学习方法的特点。详细解析了局部加权回归算法的工作原理及推导过程，并通过极大似然法对线性回归和逻辑回归进行了参数估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参数拟合概念

拟合是指从训练数据学习目标函数，过拟合是指目标函数对训练数据的预测能力很强，但对测试数据预测能力很差，欠拟合是指目标函数对训练数据和测试数据的拟合程度都很差。

参数学习算法与非参数学习方法

参数学习方法是指目标函数在训练过程中参数是固定的，例如线性回归算法，而非参数学习方法是指目标函数在训练过程中参数是可变的，例如局部加权回归算法

局部加权回归算法

为了求出假设函数 $h$ 在特定样本点 $x$ 处得值
1. 线性回归算法： $\min_{\theta}\sum_{i}(y^i-\theta^Tx)^2$ ,return $\theta^Tx$
2.局部加权回归算法： $\min_{\theta}\sum_{i}w^i(y^i-\theta^Tx)^2$
其中 $w^i$ 是权值，一般取 $w^i=exp(-\frac{(x^i-x)^2}{2\tau^2})$ , $\tau$ 称为波长函数，用来控制权值下降速率。
$w^i=\begin{cases} 1 & x^i 接近 x \\ 0 & x^i 远离 x \end{cases}$
假设 $y^i=\theta^Tx+\xi^i$ ,其中 $\xi^i$ 是误差项，一般取 $\xi^i=\frac{1}{\sqrt[2]{2\pi\sigma}}exp(-\frac{(\xi^i)^2}{2\sigma^2})$
那么有 $p(y^i\mid x^i;\theta)=\frac{1}{\sqrt[2]{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2})$ ,服从高斯分布 $N(\theta^Tx^i,\sigma^2)$

极大似然法

极大似然法就是选择参数 $\theta$ 使得样本出现的概率最大
假设 $\xi^i$ 独立同分布，定义似然函数 $L(\theta)=p(y\mid x^i;\theta)=\prod_{i}p(y^i\mid x^i;\theta)$
定义对数似然函数 $\psi(\theta)$ 如下：
$\begin{align}\psi(\theta)=\log L(\theta)=\log\prod_{i}p(y^i\mid x^i;\theta) &=\sum_{i=1}^m\log\frac{1}{\sqrt[2]{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2}) \\ &=m\log\frac{1}{\sqrt[2]{2\pi}\sigma}+\sum_{i=1}^m-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2}\end{align}$
最大化似然函数等价于最小化损失函数 $J(\theta)=\sum_{i=1}^m\frac{(y^i-\theta^Tx^i)^2}{2}$ ，最小二乘法实质上就是假设误差项服从独立同分布的高斯分布使得似然函数最大化

极大似然法用于二分类问题

假设 $y\in\lbrace 0,1\rbrace$ ,那么 $h_\theta(x)\in[0,1]$
选取 $h_\theta(x)=g(\theta^Tx)=g(z)=\frac{1}{1+e^{-z}}$ ， $g(z)$ 称为逻辑函数（S型函数）
令 $p(y=1\mid x;\theta)=h_\theta(x)$ ,则 $p(y=\mid x;\theta)=1-h_\theta(x)$
似然函数 $L(\theta)=p(y\mid x;\theta)=\prod_{i}p(y^i\mid x^i;\theta)=h_\theta(x)^{y^i}(1-h_\theta(x))^{1-y^i}$
对数似然函数 $\psi(\theta)=\log L(\theta)=\sum_{i=1}^m(y^i\log( h_\theta(x))+(1-y^i)\log(1-h_\theta(x)))$
那么可以将损失函数定义为： $J(\theta)=-\frac{1}{m}\psi(\theta)$ ,似然函数最大化就等价于损失函数最小化。
利用梯度上升法求最优解，即 $\theta=\theta+\alpha\triangledown_\theta\psi(\theta)$
$\frac{\partial{\psi(\theta)}}{\partial{\theta_j}}=-\frac{1}{m}\sum_{i=1}^m(y^i\log( h_\theta(x^i))+(1-y^i)\log(1-h_\theta(x^i))$
$=-\frac{1}{m}\sum_{i=1}^m(y^i\frac{1}{g(\theta^Tx)^i}-(1-y^i)\frac{1}{1-g(\theta^Tx^i)})\frac{\partial{g(\theta^Tx^i)}}{\partial{\theta_j}}$
$=-\frac{1}{m}\sum_{i=1}^m(y^i\frac{1}{g(\theta^Tx^i)}-(1-y^i)\frac{1}{1-g(\theta^Tx^i)})g(\theta^Tx^i)(1-g(\theta^Tx^i))\frac{\partial \theta^Tx^i}{\partial \theta_j}　　　　（１）$
$=-\frac{1}{m}\sum_{i=1}^m(y^i(1-g(\theta^Tx^I))-(1-y^i)g(\theta^Tx^i))x_j^i　　　　　（２）$
$=-\frac{1}{m}\sum_{i=1}^m(y^i-g(\theta^Tx))x_j^i=\frac{1}{m}\sum_{i=1}^m(h_\theta(x^i)-y^i)x_j^i$
从（１）到（２）的过程用到以下公式：
$f(x)=\frac{1}{1+g(x)}$
$\frac{\partial f(x)}{\partial x}=\frac{1}{(1+e^{g(x)})^2}e^{g(x)}\frac{\partial g(x)}{\partial x}$
　　　 $=\frac{1}{1+e^{g(x)}}\frac{e^{g(x)}}{1+e^{g(x)}}\frac{\partial g(x)}{\partial x}$
　　　 $=f(x)(1-f(x))\frac{\partial g(x)}{\partial x}$
所以有： $\theta_j=\theta_j+\alpha \frac{1}{m} \sum_{i=1}^m(y^i-h_\theta(x^i))x_j^i$