最优化方法(学习笔记)-第七章统计估计

最新推荐文章于 2023-06-29 11:22:41 发布

oliveQ

最新推荐文章于 2023-06-29 11:22:41 发布

阅读量511

点赞数

分类专栏：最优化方法（学习笔记）

本文链接：https://blog.csdn.net/u011412840/article/details/112504234

版权

最优化方法（学习笔记）专栏收录该内容

11 篇文章 34 订阅

订阅专栏

Statistical estimation

Logistic 回归-二分类
- 整体分类思路
- 最大化似然函数
最大似然估计MLE
最优探测器设计-二分类
实验设计
- 最小二乘估计
- D-optimal design
总结

Logistic 回归-二分类

样本 ${(x_i,y_i)\}_{i=1}^m$ ,假设观测数据 $y_i$ 符合线性模型 $y_i=x_iw+v_i,v_i$ 是噪声, $x$ 是真实值. $w$ 是待求的模型/参数/权值.

整体分类思路

回顾拟合问题 : 最小二乘法LSE

LS : $J(w)=\min{\frac12\sum\limits_{i=1}^m(y_i-x_iw)^2}$
分类问题 : $y_i\isin\{0,1\}$

因为普通的线性模型无法将 $y_i$ 限定在[0,1]之间(作为概率),又因为普通阶跃函数不可微 , 所以考虑使用sigmoid函数对分类概率建模.
$p=prob(y=1)=\hat{y}=\frac{1}{e^{-z}+1}=\begin{cases}1&z=+\infty\\(0,1)&otherwise\\0&z=-\infty\end{cases}$
其中 $z=xw,样本\{(x_i,y_i)\}_{i=1}^m,w是待估计的参数$

分类(连接link函数) : 如果 $\hat{y}$ 大于阈值0.5,那么就判定 $\hat{y}=1$ ,否则就是$\hat{y}=$0

根据已知的概率分布函数(sigmoid函数)的求导,得到 $xw+v=\log{(\frac{P(y=1|x)}{1-P(y=1|x)})}$

逻辑回归的思路是，先拟合决策边界(不局限于线性，还可以是多项式)，再建立这个边界与分类的概率 $\hat{y}$ 联系，从而得到了二分类情况下的概率。

其中,实线是分类概率(sigmoid)函数的最大估计曲线,存在50个样本点.

最大化似然函数

设: $P(y=1|x)=\hat{y};P(y=0|x)=1-\hat{y}$

似然函数: $L(w)=\Pi[\hat{y_i}]^{y_i}[1-\hat{y_i}]^{1-y_i}$

为了方便求解，写成对数似然函数:

$\log{L(w)}=\sum[y\log{\hat{y}}+(1-y)\log{(1-\hat{y})}]\iff$ 交叉熵公式

$=\sum[y\log{\frac{\hat{y}}{1-\hat{y}}}+\log{(1-\hat{y})}]=\sum\limits_{i=1}^{k[y=1]}(xw)-\sum\limits_{i=1}^{m[y=0]}\log(1+e^{xw})$

无论 $y = 1 / 0$ ,函数对于 $w$ 都是凹函数.
所以,最大化似然函数 $\iff$ 最大化交叉熵
求解方法 : 梯度下降和牛顿法

因为机器学习里,损失函数衡量的是模型预测错误的程度,也就是 $J(w)=-1/N\log{L(w)}$ ,表现为

$cost(\hat{y},y)=\begin{cases}-\log{\hat{y}}&y=1\\-\log{1-\hat{y}}&y=0\end{cases}$ ,所以基于最大似然估计MLE的逻辑回归,其损失函数是凸函数.

所以,最大化似然函数 $\iff$ 最小化损失函数

Logistic 回归的本质是 : 假设数据(分类概率)服从这个分布,然后使用极大似然估计做参数的估计.

所以 $y$ 可以从概率的角度去解释.
$y=F(z)=P(Z\leq z)=\frac{1}{1+e^{-(z-\mu)/\gamma}} \\f(z)=F'(Z\leq z)=\frac{e^{-(z-\mu)/\gamma}}{\gamma(1+e^{-(z-\mu)/\gamma})^2}$
Logistic 分布是由其位置参数 $\mu$ 和尺度参数 $\gamma$ 定义的连续分布。

Logistic 分布的形状与正态分布的形状相似，但是 Logistic 分布的尾部更长，所以我们可以使用 Logistic 分布来建模比正态分布具有更长尾部和更高波峰的数据分布。在深度学习中常用到的 Sigmoid 函数就是 Logistic 的分布函数在 $\mu=1,\gamma=1$ 的特殊形式。

当因变量服从伯努利分布时，广义线性模型就为逻辑回归

最大似然估计MLE

模型(分布)估计 : 从观测数据中的一组随机变量 , 估计概率密度 $p (y)$
参数估计 : 从一簇密度函数中 , 根据参数 $x$ 选择概率密度 $p_x(y)$

最大似然估计就是用于参数估计中(具体可以参考概率图模型的"学习"部分),定义如下:
$max_x{\log{p_x(y)}}$
$y$ 是观测数据;

$x$ 是参数,可以进行限制( $x\notin C\text{ then }p_x(y)=0$ );

$l(x)=\log{p_x(y)}$ 是对数似然函数,是凹函数(固定 $y$ 时),所以取对数可以转变为求解凸函数问题.

带独立同分布噪音的线性测量模型

$y_i=a_i^Tx+v_i,i=1,...,m$

$x$ 待求的未知参数向量 [就是前面的 $w$ ]

$v_i$ 是独立同分布噪音(IID measurement noise),密度 $p (z)$

$y_i$ 是观测数据,密度 $p_x(y)=\Pi_{i=1}^mp(y_i-a_i^Tx)$

最大似然函数,求解x:
$\max{l(x)=\sum_{i=1}^m\log{p(y_i-a_i^Tx)}}$

$v_i$ 是高斯分布

$v_i\backsim\mathcal{N}(0,\sigma^2),p(z)=\sqrt{(2\pi\sigma^2)}e^{-\frac{z^2}{2\sigma^2}}$

似然函数: $l(x)=-\frac m2\log{(2\pi\sigma^2)}-\frac1{2\sigma^2}\sum\limits_{i=1}^m(a_i^Tx-y_i)^2$

似然函数的前一项固定不变,只有第二项受样本数据影响

在最小二乘逼近问题中,逼近的解 $x_{LSE}=\arg\min_x{||Ax-y||_2^2}$
在最大似然估计问题中,极值点 $\max_x{l(x)}=\min_x{\sum\limits_{i=1}^m(a_i^Tx-y_i)^2}$
可以发现该问题下 $x_{MLE}=x_{LSE}$

意味着当我们用最小二乘逼近时,暗含着近似误差服从正态分布

$v_i$ 是拉普拉斯分布

$p(z)=\frac 1{2s}e^{-\frac{|z|}{s}},s>0$

似然函数: $l(x)=-m\log{(2s)}-\frac1{s}\sum\limits_{i=1}^m|a_i^Tx-y_i|$

最小 $L 1$ 范数问题的解 $x_{L1}=\arg\min_x\sum\limits_{i=1}^m|a_i^Tx-y_i|$
在最大似然估计问题中,极值点 $\max_x{l(x)}=\min_x{\sum\limits_{i=1}^m|a_i^Tx-y_i|}$
因此 $x_{MLE}=x_{L1}$

$v_i$ 是均匀分布

$p(z)=\frac1{2a},z\isin[-a,a]$

似然函数: $l(x)=\begin{cases}-m\log{(2a)}&|a_i^Tx-y_i|\leq a\\-\infty&otherwise\end{cases}$

在最大似然估计问题中,极值点 $\max_x{l(x)}=-m\log{(2a)},s.t.|a_i^Tx-y_i|\leq a$

最大后验概率MAP估计

贝叶斯公式: $p(y|x)=\frac{p(x,y)}{p(x)}=\frac{p(x|y)p(y)}{p(x)}$

x是待估计参数向量[在EM算法表示为θ],y是观测向量,两者均是随机变量,因为样本固定,所以先验知识 $p (x) 和 p (y)$ 相互独立,基于样本的 $p (y)$ 保持不变,可忽略.

$max_x(\log{p(y|x)}+\log{p(x)})=\max_x\log{p(x|y)}$ , $p (x ∣ y)$ 表示基于观测y后,对x的了解程度–后验概率

最大似然估计是求参数x, 使似然函数P(y|x)最大。
最大后验概率估计则是想求x使P(y|x)P(x)最大。求得的x不单单让似然函数最大，x自己出现的先验概率也得大。
这有点像正则化里加惩罚项的思想，不过正则化里是利用加法，而MAP里是利用乘法。

$p (x ∣ y)$ 表示基于观测y后,对x的了解程度.

例子[均匀分布]

若 $v_i\backsim[-a,a],x\backsim\mathcal{N(\bar{x},\sum)}$

于是变成求解
$\min{-\log{(\exp{-(x-\bar{x})^T\Sigma^{-1}(x-\bar{x})}})} \\s.t. |a_i^Tx-y_i|\leq a,i=1,...,m$

多项分布的MAP&MLE

例子:多面体实验,k=6个面,做M次实验

$\theta=\{p_1,p_2,...,p_k\}^T,p_i表示得第i个面的概率$

$x=\{x_1,x_2,...,x_k\}^T,x_i表示第i面是数量$

MAP: $\arg\max_\theta P(\theta|x)$

MLE: $\arg\max_\theta P(x|\theta)$
在某种概率分布( $\theta$ 决定)下,在M次实验产生的组合数越多,就越有可能囊括某一具体的M次实验结果的组合情况.
组合数 $\Omega=\frac{M!}{(x_1)!(x_2)!...(x_k)!}$
极大对数似然函数 $\ln{L(\theta)}=\ln{(\Omega\Pi_i^k{(p_i^{x_i})})}=\ln{M!}-\sum_i^k\ln(x_i!)+\sum_i^k{x_i\ln{p_i}}$
$\max_{p_i}{\ln{L(\theta)}} \\s.t.\sum_i^k{p_i}=1 \\\mathcal{L}=\ln{L(\theta)-\lambda(\sum_i^k{p_i}-1)}$
分别对 $p_i$ 求导,得到 $\frac{x_i}{p_i}-\lambda=0\rightarrow p_i^*=\frac{x_i}{\lambda}$

又因为 $\sum_i^k{p_i}=1\rightarrow \lambda=N,p_i^*=\frac{x_i}{N}$

无参数估计

无参数估计:密度函数形式未知,利用训练数据直接对概率密度进行估计,又称模型无关法.
参数估计:事先假定一种分布函数,利用样本数据估计其参数,又称基于模型法.

KNN近邻法:是样本估计类概率密度P(x|w_i)

Parzen窗口法:是样本估计后验概率P(w_i|x)

最大熵原理

最大熵原理 : 当预测一个随机事件概率分布时,在满足全部已知条件,而对未知情况不做任何主观假设,把未知事件当成等概率事件处理。

最大熵: $H(P)=-\sum_i^kP_i\log{P_i},s.t(0\leq H(P)\leq\log{|x|}$

$∣ x ∣$ 是数据中取x值的个数, $x\backsim$ 均匀分布
Kullback-Leiber散度: $KL(P||q)=\sum_i^nP_i\log{\frac{P_i}{q_i}},0\leq q_i\leq 1,\sum q_i=1$

关于未知分布最合理的推断 : 是符合已知的最随机/不确定的推断

最优探测器设计-二分类

假设检验

假定随机变量 $X\isin{1,..,n}$

存在两种假设分布: $p=(p_1,...,p_n),q=(q_1,...,q_n)$

确定性探测器deterministic detector
$T=\begin{pmatrix}1&0&...&1\\0&1&...&0\end{pmatrix}$
随机/概率探测器randomized detector
$T=\begin{pmatrix}0.7&0.5&...&0.2\\0.3&0.5&...&0.8\end{pmatrix}$

探测器/概率转移矩阵

定义: $P_{kj}=Prob(X=k|\theta=j),t_{ik}=Prob(\hat\theta=i|X=k)$

T矩阵的每一列加起来是1
转移矩阵D=TP

$D_{ij}=Prob(\hat\theta=i|\theta=j) \\=\sum_{k=1}^nP(\hat\theta=i|x=k,\theta=j)P(x=k|\theta=j) \\=\sum_kt_{ik}P_{kj}=(TP)_{ij}$

最优探测器

正确率: $P_i^d=D_{ii}$
错误率: $P_i^e=\sum_{j\neq i}D_{ji}$
对错误率的限制[可行域问题]

$D_{ii}\geq L_i,D_{ij}\leq U_{ij}(i\neq j)$
最小化最大错误率(变量 $T=(t_{1},...,t_{k})$ )
$\min{\max_j{P_j^e}} \\s.t. t_{.k}\geq 0,1^Tt_{.k}=1$

Binary Case

概率转移矩阵
$D=\begin{bmatrix}T_p&T_q\end{bmatrix}=\begin{bmatrix}1-P_{fp}&P_{fn}\\P_{fp}&1-P_{fn}\end{bmatrix}$
- $P_{fp}$ 是False Positive, $P_{fn}$ 是False Negative,相互竞争
[多条件]最小探测器设计
$\min_{T\isin R^{2\times n}}(P_{fp},P_{fn})=((T_p)_2,(T_q)_1)[w.r.t R_+^2] \\s.t. t_{1k}+t_{2k}=1,t_{ik}\geq0,i=1,2,k=1,..,n$
- [min-D]标量化: $\lambda>0$
  $\min(T_p)_2+\lambda(T_q)_1 \\s.t. t_{1k}+t_{2k}=1,t_{ik}\geq0,i=1,2,k=1,..,n$
- 求解
$目标函数Q=\sum_{k=1}^nt_{2k}p_k+\lambda\sum_{k=1}^nt_{1k}q_k \\拉格朗日L=Q-\sum\sum\mu_{ik}t_{ik}+\sum\nu_k(t_{1k}+t_{2k}-1) \\\mu_{ik}\geq0,互补松弛条件:\mu_{ik}t_{ik}=0$
- 分别对 $t_{1k}和t_{2k}$ 求偏导
  $\lambda q_k-\mu_{1k}+\nu_k=0 \\p_k-\mu_{2k}+\nu_k=0 \\(t_{1k},t_{2k})=\begin{cases}(1,0)&p_k\geq \lambda q_k\\(0,1)&p_k<\lambda q_k\end{cases}$
  $p_k\neq\lambda q_k$ : 这是由似然比检验得到的确定性探测器
  
  $p_k=\lambda q_k$ : 对于某些k , $t_{1k}=1-t_{2k}$ (概率探测器)是最优的,比如:帕累托最优检测器包括非确定性检测器
[min-max(fp,fn)]最小最大探测器
$\min_{T}\max(P_{fp},P_{fn})=\max\{(T_p)_2,(T_q)_1\} \\s.t. t_{1k}+t_{2k}=1,t_{ik}\geq0,i=1,2,k=1,..,n$
作为线性规划问题,解通常不是确定性的.

ROC曲线

基本含义

真实情况	预测结果-正例	预测结果-反例	含义	统计量
正例	TP(将正例正确预测为正例)	FN(将正例错误预测为负例)	TP + FN 表示实际数据集中正样本的数量	召回率Recall / 灵敏度Sensitivity / TPR = TP/(TP+FN)，漏诊率 = 1 - 灵敏度
反例	FP(将负例错误的预测为正例)	TN(将负例正确的预测为负例)	FP + TN 表示实际数据集中负样本的数量	FPR = FP/(FP+TN), 特异度(Specificity) = 1 - FPR = TN/(FP+TN)
加和含义	TP + FP 表示预测的正类样本数	FN + TN 表示预测的负类样本数	TP + FN + FP + TN 表示样本总数
统计量	精确率Precision = TP/(TP+FP)			正确率Accuracy = (TP+TN)/(TP+TN+FP+FN), 错误率 = (FP+FN)/(TP+TN+FP+FN), F-measure = 2(PrecisionRecall)/(Precision+Recall)

其中最重要的两个公式如下：

$\frac{TP}{TP+FN},,FPR = \frac{FP}{FP+TN}$
在ROC曲线图中，每个点以对应的FPR值为横坐标，TPR值为纵坐标

ROC曲线的绘制步骤如下：

假设已经得出一系列样本被划分为正类的概率Score值，按照大小排序。
从高到低，依次将“Score”值作为阈值threshold，当测试样本属于正样本的概率大于或等于这个threshold时，我们认为它为正样本，否则为负样本。举例来说，对于某个样本，其“Score”值为0.6，那么“Score”值大于等于0.6的样本都被认为是正样本，而其他样本则都认为是负样本。
每次选取一个不同的threshold，得到一组FPR和TPR，以FPR值为横坐标和TPR值为纵坐标，即ROC曲线上的一点。
根据3中的每个坐标点，画图。

AUC(Area Under Curve)表示ROC曲线下的面积，主要用于衡量模型的泛化性能，即分类效果的好坏。AUC是衡量二分类模型优劣的一种评价指标，表示正例排在负例前面的概率。

Two Alternative forced choice

一次采两个样本分别由两个分布产生,不需要阈值,通过样本本身起到阈值作用,简单采用比较方法得到正确率

$正确率P(x_1>x_0)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}I(T'>T)f_1(T')f_0(T)dTdT'$

实验设计

m次测量数据 $y_i=a_i^Tx+w_i,w_i\backsim iid\mathcal{N}(0,1),G=\sum a_ia_i^T$

最小二乘估计

$\hat{x}=(\sum_{i=1}^m(a_ia_i^T))^{-1}\sum_{i=1}^m y_ia_i =(A^TA)^{-1}A^Ty$

估计均值,
$E(\hat{x})=E(G^{-1}Gx+G^{-1}\sum a_iw_i)\xlongequal{E(w)=0}x$
估计方差
$Var(\hat{x})=E((\hat{x}-x)(\hat{x}-x)^T)=E(G^{-1}\sum_i a_iw_i)(G^{-1}\sum_j a_jw_j) \\\xlongequal{i\neq j的乘积为0}E(G^{-1}\sum_i a_ia_i^TG^{-1}w_i^2)\xlongequal{E(w_i^2)=1}G^{-1}$
于是需要找到序列 $a_i\isin\{v_1,...,v_p\}$ ,使得 $Var=G^{-1}$ 最小

$\min{(\sum_{k=1}^pm_kv_kv_k^T)^{-1}} \\s.t. m_k\geq0,m_1+..+m_p=m,m_k\isin \mathbb{Z}$

求变量 $m_k$ ,在整数规划中很难求解

松弛实验设计

假设m远大于p,定义实数 $\lambda_k=\frac{m_k}{m}$
$E=\min{\frac1m(\sum_{k=1}^p\lambda_kv_kv_k^T)^{-1}} \\s.t. \lambda\geq0,\mathbb{1}^T\lambda=1$
- 常见的标量化: $\min\log det(E),tr(E),\lambda_{max}(E)$
- 可以加入其他凸约束:比如定界 $c^T\lambda\leq B$

D-optimal design

$\min{\log\det(\sum_{k=1}^p\lambda_kv_kv_k^T)^{-1}} \\s.t. \lambda\geq0,\mathbb{1}^T\lambda=1$

就是最小化置信椭球的体积.

dual problem化为对偶问题
$\max\log\det W+n\log n \\s.t. v_k^TW{v_k}\leq1,k=1,..,p$
${x|x^TWx≤1\}$ 是以原点为中心的最小体积的椭球，其中包括所有测试向量 $v_k$
complementary slackness互补松弛条件
$\lambda_k(1-v_k^TWv_k)=0,k=1,..,p$
最优的实验:是在 $W_\lambda$ 定义(最小椭球)的边界上使用 $v_k$
实验结果

一共有20个向量 $v_k$ 符合,但由最优 $W_\lambda$ 边界确定的只有两个 $\lambda\neq0$ 的向量

总结

logistics回归-二分类
- 先拟合决策边界(不局限于线性，还可以是多项式)，再建立这个边界与分类的概率 $\hat{y}$ 联系，从而得到了二分类情况下的概率。
- 最大化似然函数 $\iff$ 最大化交叉熵;,最大化似然函数 $\iff$ 最小化损失函数
- Logistic 回归的本质是 : 假设数据(分类概率)服从这个分布,然后使用极大似然估计做参数的估计.
最大似然估计MLE
- 模型(分布)估计 : 从观测数据中的一组随机变量 , 估计概率密度 $p (y)$
- 参数估计 : 从一簇密度函数中 , 根据参数 $x$ 选择概率密度 $p_x(y)$
- 带噪的线性测量模型
  
  $\max{l(x)=\sum_{i=1}^m\log{p(y_i-a_i^Tx)}}$
  - [L2]高斯分布
    
    $\max_x{l(x)}=\min_x{\sum\limits_{i=1}^m(a_i^Tx-y_i)^2}$ ; $x_{MLE}=x_{LSE}$
  - [L1]拉普拉斯分布
    
    $\max_x{l(x)}=\min_x{\sum\limits_{i=1}^m|a_i^Tx-y_i|}$ ; $x_{MLE}=x_{L1}$
  - 均匀分布
    
    $\max_x{l(x)}=-m\log{(2a)},s.t.|a_i^Tx-y_i|\leq a$
- 最大后验概率MAP
  
  最大似然估计是求参数θ, 使似然函数P(x|θ)最大。最大后验概率估计则是想求θ使P(x|θ)P(θ)最大。
  
  求得的θ不单单让似然函数最大，θ自己出现的先验概率也得大.
- 多项分布的MAP&MLE
  
  多面体实验,k=6个面,做M次实验
- 无参数估计
  - 无参数估计:密度函数形式未知,利用训练数据直接对概率密度进行估计,又称模型无关法.
  - 参数估计:事先假定一种分布函数,利用样本数据估计其参数,又称基于模型法.
  - 最大熵原理 : 当预测一个随机事件概率分布时,在满足全部已知条件,而对未知情况不做任何主观假设,把未知事件当成等概率事件处理。
最优探测器设计-二分类
- 假设检验
  - 存在两种假设分布
  - 包括确定性探测器,随机/概率探测器
- 概率转移矩阵D=TP
  
  定义: $P_{kj}=Prob(X=k|\theta=j),t_{ik}=Prob(\hat\theta=i|X=k)$
- 最优探测器
  
  最小化最大错误率 $min{\max_j{P_j^e}}$
- Binary Case
  - 最小探测器设计-可得到的确定性探测器
  - 最小最大探测器-通常会得到概率探测器
- ROC曲线
  - AUC表示ROC曲线下的面积，主要用于衡量模型的泛化性能，即分类效果的好坏。
  - Two Alternative forced choice:两两样本比较得到正确率
实验设计-举例
- 最小二乘估计
- D-optimal design[松]

参考

oliveQ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
最优化方法(学习笔记)-第七章统计估计

Statistical estimationLogistic 回归-二分类整体分类思路最大化似然函数最大似然估计MLE带独立同分布噪音的线性测量模型viv_ivi是高斯分布viv_ivi是拉普拉斯分布viv_ivi是均匀分布最大后验概率MAP估计多项分布的MAP&MLE无参数估计最大熵原理最优探测器设计-二分类假设检验探测器/概率转移矩阵最优探测器Binary CaseROC曲线实验设计最小二乘估计D-optimal design总结Logistic 回归-二分类样本{(xi,yi)}i=
复制链接

扫一扫