线性模型（壹）

最新推荐文章于 2022-09-24 11:41:34 发布

冈仁波齐下写一串优美的代码

最新推荐文章于 2022-09-24 11:41:34 发布

阅读量192

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/m0_37846020/article/details/82952466

版权

机器学习专栏收录该内容

22 篇文章 0 订阅

订阅专栏

1 最小二乘法（Least Square）

一种数学方法，来直接求解最优解。
$\sum_{j=1}^nX_{ij}\beta_j=y_i,(i=1,2,...,m),X\beta=y$

$\left[ \begin{matrix} X_{11} & X_{12} &...& X_{1n} \\ X_{21} & X_{22} &... & X_{2n}\\ X_{31} & X_{32} & ...&X_{3n}\\ ...&...&...&...\\ X_{m1} & X_{m2} & ...&X_{mn} \end{matrix} \right],\beta=\left[ \begin{matrix} \beta_{1}\\ \beta_{2} \\ \beta_{3} \\ ...\\ \beta_{n} \end{matrix} \right],y=\left[ \begin{matrix} y_{1}\\ y_{2} \\ y_{3} \\ ...\\ y_{m} \end{matrix} \right]$
$\hat \beta =argmin_\beta S(\beta),S(\beta)=\sum_{i=1}^m|y_i-\sum_{j=1}^nX_{ij}\beta_j|^2=||y-X\beta||^2$

推导：
$||y-X\beta||^2=(y-X\beta)^T(y-X\beta)=(y^T-\beta^TX^T)(y-X\beta),y^Ty-y^TX\beta-\beta^TX^Ty+\beta^TX^TX\beta$ ,其中 $y^TX\beta-\beta^TX^Ty$ 是标量,所以 $||y-X\beta||^2=y^Ty-2X^Ty\beta+\beta^TX^TX\beta$ ,所以在求 $\frac{\partial S}{\partial \beta}=0=\frac{\partial ||y-X\beta||^2 }{\partial \beta}=\frac{\partial (\beta^TX^TX\beta )}{\partial \beta}-2X^Ty$
扩展(1)：对向量的求导 $\frac{d(U^TV)}{d(x)}=\frac{d(U^T)}{d(x)}V+\frac{d(V^T)}{d(x)}U$
扩展(2):假设B为方阵， $\frac{d(X^TBX)}{d(x)}=\frac{d(x^T)}{d(x)}BX+\frac{d(X^TB^T)}{dx}X=BX+B^TX=(B+B^T)X$
所以 $\frac{\partial (\beta^TX^TX\beta )}{\partial \beta}=X^TX\beta+X^T X\beta=2X^T X\beta$ 所以 $2X^T X\beta-2X^Ty=0$ 所以 $\beta=(X^TX)^{-1}X^Ty$

图形化的理解：
二乘法
概率的理解：
假设真实值与估计值之间的误差服从正态分布，那么我们可以假设概率密度函数满足：
$p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$
当我们想要确定 $\theta$ 的值时，我们需要利用最大似然估计的方法，所以这样我们便可以将最大似然值和极小化损失函数联系到一起。
$L(\theta)=L(\theta;X,y)=p(y|X;\theta)=\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)=\prod_{i=1}^m\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$
当我们需要损失函数最小的时候，及分子平方和最小，同时达到最大似然。

2 Logistic 回归（Logistic Regression）

2.1 Sigmoid Function

sigmoid
Logistic 模型：
$P(Y=1|X)=\frac{e^{w·x}}{1+e^{w·x}}$
$P(Y=0|X)=\frac{1}{1+e^{w·x}}$
一个事件发生的几率（odds）是指该事件发生的机率与该事件不发生几率的比值。对数几率则是 $logit(p)=log\frac{p}{1-p}$ , 对logistic来说，对数几率是线性函数 $w \cdot x$ 换个角度，对 $x$ 进行分类的线性函数，通过logistic模型可以变为概率。

2.2 Logistic参数估计

对于数据集 $T=\{ (x^{(1)},y^{(1)}),.....,(x^{(N)},y^{(N)}),\},y\in\{0,1\}$ ,可以用极大似然法来估计参数，从而得到logistic模型。
$P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x)$
所以似然函数为：
$\prod_{i=1}^N[\pi(x^{(i)})]^{y^{(i)}}[1-\pi(x^{(i)})]^{1-y^{(i)}}$
对数似然为：
$L(w)=\sum_{i=1}^N[y_ilog\pi(x)+(1-y_i)log(1-\pi(x))]=\sum_{i=1}^N[y_ilog\frac{\pi(x)}{1-\pi(x)}+log(1-\pi(x))]$
$...=\sum_{i=1}^N[y_i(w·x)-log(1+e^{w·x})]$
从而可以得出L极大值下的 $\hat w$ 估计。

2.3 多项Logistic回归（Multi-nominal logistic regression）

推广Logistic 到多分类的模型。
假设离散型随机变量Y的取值集合是 ${ 1,2,3,4....K\}$ ,那么多项logistic回归模型是：
$P(Y=k|x)=\frac{e^{w_k·x}}{1+\sum_{k=1}^{K-1}e^{w_k·x}},k\in\{1,2....K-1\}$
$P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}e^{w_k·x}},x\in R^{n+1},w_k\in R^{n+1}$