最优化方法(学习笔记)-第七章统计估计

Logistic 回归-二分类

样本 { ( x i , y i ) } i = 1 m \{(x_i,y_i)\}_{i=1}^m {(xi,yi)}i=1m,假设观测数据 y i y_i yi符合线性模型 y i = x i w + v i , v i y_i=x_iw+v_i,v_i yi=xiw+vi,vi是噪声, x x x是真实值. w w w是待求的模型/参数/权值.

整体分类思路

  • 回顾拟合问题 : 最小二乘法LSE

    LS : J ( w ) = min ⁡ 1 2 ∑ i = 1 m ( y i − x i w ) 2 J(w)=\min{\frac12\sum\limits_{i=1}^m(y_i-x_iw)^2} J(w)=min21i=1m(yixiw)2

  • 分类问题 : y i ∈ { 0 , 1 } y_i\isin\{0,1\} yi{0,1}

    因为普通的线性模型无法将 y i y_i yi限定在[0,1]之间(作为概率),又因为普通阶跃函数不可微 , 所以考虑使用sigmoid函数对分类概率建模.
    p = p r o b ( y = 1 ) = y ^ = 1 e − z + 1 = { 1 z = + ∞ ( 0 , 1 ) o t h e r w i s e 0 z = − ∞ p=prob(y=1)=\hat{y}=\frac{1}{e^{-z}+1}=\begin{cases}1&z=+\infty\\(0,1)&otherwise\\0&z=-\infty\end{cases} p=prob(y=1)=y^=ez+11=1(0,1)0z=+otherwisez=
    其中 z = x w , 样 本 { ( x i , y i ) } i = 1 m , w 是 待 估 计 的 参 数 z=xw,样本\{(x_i,y_i)\}_{i=1}^m,w是待估计的参数 z=xw,{(xi,yi)}i=1m,w

    分类(连接link函数) : 如果 y ^ \hat{y} y^大于阈值0.5,那么就判定 y ^ = 1 \hat{y}=1 y^=1,否则就是$\hat{y}=$0
    在这里插入图片描述

    根据已知的概率分布函数(sigmoid函数)的求导,得到 x w + v = log ⁡ ( P ( y = 1 ∣ x ) 1 − P ( y = 1 ∣ x ) ) xw+v=\log{(\frac{P(y=1|x)}{1-P(y=1|x)})} xw+v=log(1P(y=1x)P(y=1x))

    逻辑回归的思路是,先拟合决策边界(不局限于线性,还可以是多项式),再建立这个边界与分类的概率 y ^ \hat{y} y^联系,从而得到了二分类情况下的概率。
    在这里插入图片描述
    其中,实线是分类概率(sigmoid)函数的最大估计曲线,存在50个样本点.

最大化似然函数

设: P ( y = 1 ∣ x ) = y ^ ; P ( y = 0 ∣ x ) = 1 − y ^ P(y=1|x)=\hat{y};P(y=0|x)=1-\hat{y} P(y=1x)=y^;P(y=0x)=1y^

似然函数: L ( w ) = Π [ y i ^ ] y i [ 1 − y i ^ ] 1 − y i L(w)=\Pi[\hat{y_i}]^{y_i}[1-\hat{y_i}]^{1-y_i} L(w)=Π[yi^]yi[1yi^]1yi

  • 为了方便求解,写成对数似然函数:

    log ⁡ L ( w ) = ∑ [ y log ⁡ y ^ + ( 1 − y ) log ⁡ ( 1 − y ^ ) ]    ⟺    \log{L(w)}=\sum[y\log{\hat{y}}+(1-y)\log{(1-\hat{y})}]\iff logL(w)=[ylogy^+(1y)log(1y^)]交叉熵公式

    = ∑ [ y log ⁡ y ^ 1 − y ^ + log ⁡ ( 1 − y ^ ) ] = ∑ i = 1 k [ y = 1 ] ( x w ) − ∑ i = 1 m [ y = 0 ] log ⁡ ( 1 + e x w ) =\sum[y\log{\frac{\hat{y}}{1-\hat{y}}}+\log{(1-\hat{y})}]=\sum\limits_{i=1}^{k[y=1]}(xw)-\sum\limits_{i=1}^{m[y=0]}\log(1+e^{xw}) =[ylog1y^y^+log(1y^)]=i=1k[y=1](xw)i=1m[y=0]log(1+exw)

    无论 y = 1 / 0 y=1/0 y=1/0,函数对于 w w w都是凹函数.

  • 所以,最大化似然函数    ⟺    \iff 最大化交叉熵

  • 求解方法 : 梯度下降和牛顿法

因为机器学习里,损失函数衡量的是模型预测错误的程度,也就是 J ( w ) = − 1 / N log ⁡ L ( w ) J(w)=-1/N\log{L(w)} J(w)=1/NlogL(w),表现为

c o s t ( y ^ , y ) = { − log ⁡ y ^ y = 1 − log ⁡ 1 − y ^ y = 0 cost(\hat{y},y)=\begin{cases}-\log{\hat{y}}&y=1\\-\log{1-\hat{y}}&y=0\end{cases} cost(y^,y)={logy^log1y^y=1y=0,所以基于最大似然估计MLE的逻辑回归,其损失函数是凸函数.

  • 所以,最大化似然函数    ⟺    \iff 最小化损失函数

Logistic 回归的本质是 : 假设数据(分类概率)服从这个分布,然后使用极大似然估计做参数的估计.

  • 所以 y y y可以从概率的角度去解释.
    y = F ( z ) = P ( Z ≤ z ) = 1 1 + e − ( z − μ ) / γ f ( z ) = F ′ ( Z ≤ z ) = e − ( z − μ ) / γ γ ( 1 + e − ( z − μ ) / γ ) 2 y=F(z)=P(Z\leq z)=\frac{1}{1+e^{-(z-\mu)/\gamma}} \\f(z)=F'(Z\leq z)=\frac{e^{-(z-\mu)/\gamma}}{\gamma(1+e^{-(z-\mu)/\gamma})^2} y=F(z)=P(Zz)=1+e(zμ)/γ1f(z)=F(Zz)=γ(1+e(zμ)/γ)2e(zμ)/γ
    Logistic 分布是由其位置参数 μ \mu μ和尺度参数 γ \gamma γ定义的连续分布。
    在这里插入图片描述
    Logistic 分布的形状与正态分布的形状相似,但是 Logistic 分布的尾部更长,所以我们可以使用 Logistic 分布来建模比正态分布具有更长尾部和更高波峰的数据分布。在深度学习中常用到的 Sigmoid 函数就是 Logistic 的分布函数在 μ = 1 , γ = 1 \mu=1,\gamma=1 μ=1,γ=1的特殊形式。

    因变量服从伯努利分布时,广义线性模型就为逻辑回归

最大似然估计MLE

  • 模型(分布)估计 : 从观测数据中的一组随机变量 , 估计概率密度 p ( y ) p(y) p(y)
  • 参数估计 : 从一簇密度函数中 , 根据参数 x x x选择概率密度 p x ( y ) p_x(y) px(y)

最大似然估计就是用于参数估计中(具体可以参考概率图模型的"学习"部分),定义如下:
max ⁡ x log ⁡ p x ( y ) \max_x{\log{p_x(y)}} xmaxlogpx(y)
y y y是观测数据;

x x x是参数,可以进行限制( x ∉ C  then  p x ( y ) = 0 x\notin C\text{ then }p_x(y)=0 x/C then px(y)=0);

l ( x ) = log ⁡ p x ( y ) l(x)=\log{p_x(y)} l(x)=logpx(y)是对数似然函数,是凹函数(固定 y y y时),所以取对数可以转变为求解凸函数问题.

带独立同分布噪音的线性测量模型

y i = a i T x + v i , i = 1 , . . . , m y_i=a_i^Tx+v_i,i=1,...,m yi=aiTx+vi,i=1,...,m

x x x待求的未知参数向量 [就是前面的 w w w]

v i v_i vi是独立同分布噪音(IID measurement noise),密度 p ( z ) p(z) p(z)

y i y_i yi是观测数据,密度 p x ( y ) = Π i = 1 m p ( y i − a i T x ) p_x(y)=\Pi_{i=1}^mp(y_i-a_i^Tx) px(y)=Πi=1mp(yiaiTx)

最大似然函数,求解x:
max ⁡ l ( x ) = ∑ i = 1 m log ⁡ p ( y i − a i T x ) \max{l(x)=\sum_{i=1}^m\log{p(y_i-a_i^Tx)}} maxl(x)=i=1mlogp(yiaiTx)

v i v_i vi是高斯分布

v i ∽ N ( 0 , σ 2 ) , p ( z ) = ( 2 π σ 2 ) e − z 2 2 σ 2 v_i\backsim\mathcal{N}(0,\sigma^2),p(z)=\sqrt{(2\pi\sigma^2)}e^{-\frac{z^2}{2\sigma^2}} viN(0,σ2),p(z)=(2πσ2) e2σ2z2

似然函数: l ( x ) = − m 2 log ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 m ( a i T x − y i ) 2 l(x)=-\frac m2\log{(2\pi\sigma^2)}-\frac1{2\sigma^2}\sum\limits_{i=1}^m(a_i^Tx-y_i)^2 l(x)=2mlog(2πσ2)2σ21i=1m(aiTxyi)2

似然函数的前一项固定不变,只有第二项受样本数据影响

  • 最小二乘逼近问题中,逼近的解 x L S E = arg ⁡ min ⁡ x ∣ ∣ A x − y ∣ ∣ 2 2 x_{LSE}=\arg\min_x{||Ax-y||_2^2} xLSE=argminxAxy22

  • 最大似然估计问题中,极值点 max ⁡ x l ( x ) = min ⁡ x ∑ i = 1 m ( a i T x − y i ) 2 \max_x{l(x)}=\min_x{\sum\limits_{i=1}^m(a_i^Tx-y_i)^2} maxxl(x)=minxi=1m(aiTxyi)2

  • 可以发现该问题下 x M L E = x L S E x_{MLE}=x_{LSE} xMLE=xLSE

意味着当我们用最小二乘逼近时,暗含着近似误差服从正态分布

v i v_i vi是拉普拉斯分布

p ( z ) = 1 2 s e − ∣ z ∣ s , s > 0 p(z)=\frac 1{2s}e^{-\frac{|z|}{s}},s>0 p(z)=2s1esz,s>0

似然函数: l ( x ) = − m log ⁡ ( 2 s ) − 1 s ∑ i = 1 m ∣ a i T x − y i ∣ l(x)=-m\log{(2s)}-\frac1{s}\sum\limits_{i=1}^m|a_i^Tx-y_i| l(x)=mlog(2s)s1i=1maiTxyi

  • 最小 L 1 L1 L1范数问题的解 x L 1 = arg ⁡ min ⁡ x ∑ i = 1 m ∣ a i T x − y i ∣ x_{L1}=\arg\min_x\sum\limits_{i=1}^m|a_i^Tx-y_i| xL1=argminxi=1maiTxyi
  • 最大似然估计问题中,极值点 max ⁡ x l ( x ) = min ⁡ x ∑ i = 1 m ∣ a i T x − y i ∣ \max_x{l(x)}=\min_x{\sum\limits_{i=1}^m|a_i^Tx-y_i|} maxxl(x)=minxi=1maiTxyi
  • 因此 x M L E = x L 1 x_{MLE}=x_{L1} xMLE=xL1

v i v_i vi是均匀分布

p ( z ) = 1 2 a , z ∈ [ − a , a ] p(z)=\frac1{2a},z\isin[-a,a] p(z)=2a1,z[a,a]

似然函数: l ( x ) = { − m log ⁡ ( 2 a ) ∣ a i T x − y i ∣ ≤ a − ∞ o t h e r w i s e l(x)=\begin{cases}-m\log{(2a)}&|a_i^Tx-y_i|\leq a\\-\infty&otherwise\end{cases} l(x)={mlog(2a)aiTxyiaotherwise

最大似然估计问题中,极值点 max ⁡ x l ( x ) = − m log ⁡ ( 2 a ) , s . t . ∣ a i T x − y i ∣ ≤ a \max_x{l(x)}=-m\log{(2a)},s.t.|a_i^Tx-y_i|\leq a maxxl(x)=mlog(2a),s.t.aiTxyia

最大后验概率MAP估计

贝叶斯公式: p ( y ∣ x ) = p ( x , y ) p ( x ) = p ( x ∣ y ) p ( y ) p ( x ) p(y|x)=\frac{p(x,y)}{p(x)}=\frac{p(x|y)p(y)}{p(x)} p(yx)=p(x)p(x,y)=p(x)p(xy)p(y)

x是待估计参数向量[在EM算法表示为θ],y是观测向量,两者均是随机变量,因为样本固定,所以先验知识 p ( x ) 和 p ( y ) p(x)和p(y) p(x)p(y)相互独立,基于样本的 p ( y ) p(y) p(y)保持不变,可忽略.

max ⁡ x ( log ⁡ p ( y ∣ x ) + log ⁡ p ( x ) ) = max ⁡ x log ⁡ p ( x ∣ y ) \max_x(\log{p(y|x)}+\log{p(x)})=\max_x\log{p(x|y)} maxx(logp(yx)+logp(x))=maxxlogp(xy) , p ( x ∣ y ) p(x|y) p(xy)表示基于观测y后,对x的了解程度–后验概率

  • 最大似然估计是求参数x, 使似然函数P(y|x)最大。
  • 最大后验概率估计则是想求x使P(y|x)P(x)最大。求得的x不单单让似然函数最大,x自己出现的先验概率也得大
  • 这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法。

p ( x ∣ y ) p(x|y) p(xy)表示基于观测y后,对x的了解程度.

  • 例子[均匀分布]

v i ∽ [ − a , a ] , x ∽ N ( x ˉ , ∑ ) v_i\backsim[-a,a],x\backsim\mathcal{N(\bar{x},\sum)} vi[a,a],xN(xˉ,)

于是变成求解
min ⁡ − log ⁡ ( exp ⁡ − ( x − x ˉ ) T Σ − 1 ( x − x ˉ ) ) s . t . ∣ a i T x − y i ∣ ≤ a , i = 1 , . . . , m \min{-\log{(\exp{-(x-\bar{x})^T\Sigma^{-1}(x-\bar{x})}})} \\s.t. |a_i^Tx-y_i|\leq a,i=1,...,m minlog(exp(xxˉ)TΣ1(xxˉ))s.t.aiTxyia,i=1,...,m

多项分布的MAP&MLE

  • 例子:多面体实验,k=6个面,做M次实验

    θ = { p 1 , p 2 , . . . , p k } T , p i 表 示 得 第 i 个 面 的 概 率 \theta=\{p_1,p_2,...,p_k\}^T,p_i表示得第i个面的概率 θ={p1,p2,...,pk}T,pii

    x = { x 1 , x 2 , . . . , x k } T , x i 表 示 第 i 面 是 数 量 x=\{x_1,x_2,...,x_k\}^T,x_i表示第i面是数量 x={x1,x2,...,xk}T,xii

    MAP: arg ⁡ max ⁡ θ P ( θ ∣ x ) \arg\max_\theta P(\theta|x) argmaxθP(θx)

    MLE: arg ⁡ max ⁡ θ P ( x ∣ θ ) \arg\max_\theta P(x|\theta) argmaxθP(xθ)

  • 在某种概率分布( θ \theta θ决定)下,在M次实验产生的组合数越多,就越有可能囊括某一具体的M次实验结果的组合情况.

  • 组合数 Ω = M ! ( x 1 ) ! ( x 2 ) ! . . . ( x k ) ! \Omega=\frac{M!}{(x_1)!(x_2)!...(x_k)!} Ω=(x1)!(x2)!...(xk)!M!

  • 极大对数似然函数 ln ⁡ L ( θ ) = ln ⁡ ( Ω Π i k ( p i x i ) ) = ln ⁡ M ! − ∑ i k ln ⁡ ( x i ! ) + ∑ i k x i ln ⁡ p i \ln{L(\theta)}=\ln{(\Omega\Pi_i^k{(p_i^{x_i})})}=\ln{M!}-\sum_i^k\ln(x_i!)+\sum_i^k{x_i\ln{p_i}} lnL(θ)=ln(ΩΠik(pixi))=lnM!ikln(xi!)+ikxilnpi
    max ⁡ p i ln ⁡ L ( θ ) s . t . ∑ i k p i = 1 L = ln ⁡ L ( θ ) − λ ( ∑ i k p i − 1 ) \max_{p_i}{\ln{L(\theta)}} \\s.t.\sum_i^k{p_i}=1 \\\mathcal{L}=\ln{L(\theta)-\lambda(\sum_i^k{p_i}-1)} pimaxlnL(θ)s.t.ikpi=1L=lnL(θ)λ(ikpi1)
    分别对 p i p_i pi求导,得到 x i p i − λ = 0 → p i ∗ = x i λ \frac{x_i}{p_i}-\lambda=0\rightarrow p_i^*=\frac{x_i}{\lambda} pixiλ=0pi=λxi

    又因为 ∑ i k p i = 1 → λ = N , p i ∗ = x i N \sum_i^k{p_i}=1\rightarrow \lambda=N,p_i^*=\frac{x_i}{N} ikpi=1λ=N,pi=Nxi

无参数估计

  • 无参数估计:密度函数形式未知,利用训练数据直接对概率密度进行估计,又称模型无关法.

  • 参数估计:事先假定一种分布函数,利用样本数据估计其参数,又称基于模型法.

KNN近邻法:是样本估计类概率密度P(x|w_i)

Parzen窗口法:是样本估计后验概率P(w_i|x)

最大熵原理

最大熵原理 : 当预测一个随机事件概率分布时,在满足全部已知条件,而对未知情况不做任何主观假设,把未知事件当成等概率事件处理

  • 最大熵: H ( P ) = − ∑ i k P i log ⁡ P i , s . t ( 0 ≤ H ( P ) ≤ log ⁡ ∣ x ∣ H(P)=-\sum_i^kP_i\log{P_i},s.t(0\leq H(P)\leq\log{|x|} H(P)=ikPilogPi,s.t(0H(P)logx

    ∣ x ∣ |x| x是数据中取x值的个数, x ∽ x\backsim x均匀分布

  • Kullback-Leiber散度: K L ( P ∣ ∣ q ) = ∑ i n P i log ⁡ P i q i , 0 ≤ q i ≤ 1 , ∑ q i = 1 KL(P||q)=\sum_i^nP_i\log{\frac{P_i}{q_i}},0\leq q_i\leq 1,\sum q_i=1 KL(Pq)=inPilogqiPi,0qi1,qi=1

关于未知分布最合理的推断 : 是符合已知最随机/不确定的推断

最优探测器设计-二分类

假设检验

假定随机变量 X ∈ 1 , . . , n X\isin{1,..,n} X1,..,n

存在两种假设分布: p = ( p 1 , . . . , p n ) , q = ( q 1 , . . . , q n ) p=(p_1,...,p_n),q=(q_1,...,q_n) p=(p1,...,pn),q=(q1,...,qn)

  • 确定性探测器deterministic detector
    T = ( 1 0 . . . 1 0 1 . . . 0 ) T=\begin{pmatrix}1&0&...&1\\0&1&...&0\end{pmatrix} T=(1001......10)

  • 随机/概率探测器randomized detector
    T = ( 0.7 0.5 . . . 0.2 0.3 0.5 . . . 0.8 ) T=\begin{pmatrix}0.7&0.5&...&0.2\\0.3&0.5&...&0.8\end{pmatrix} T=(0.70.30.50.5......0.20.8)

探测器/概率转移矩阵

定义: P k j = P r o b ( X = k ∣ θ = j ) , t i k = P r o b ( θ ^ = i ∣ X = k ) P_{kj}=Prob(X=k|\theta=j),t_{ik}=Prob(\hat\theta=i|X=k) Pkj=Prob(X=kθ=j),tik=Prob(θ^=iX=k)

  • T矩阵的每一列加起来是1

  • 转移矩阵D=TP

D i j = P r o b ( θ ^ = i ∣ θ = j ) = ∑ k = 1 n P ( θ ^ = i ∣ x = k , θ = j ) P ( x = k ∣ θ = j ) = ∑ k t i k P k j = ( T P ) i j D_{ij}=Prob(\hat\theta=i|\theta=j) \\=\sum_{k=1}^nP(\hat\theta=i|x=k,\theta=j)P(x=k|\theta=j) \\=\sum_kt_{ik}P_{kj}=(TP)_{ij} Dij=Prob(θ^=iθ=j)=k=1nP(θ^=ix=k,θ=j)P(x=kθ=j)=ktikPkj=(TP)ij

最优探测器

  • 正确率: P i d = D i i P_i^d=D_{ii} Pid=Dii

  • 错误率: P i e = ∑ j ≠ i D j i P_i^e=\sum_{j\neq i}D_{ji} Pie=j=iDji

  • 对错误率的限制[可行域问题]

    D i i ≥ L i , D i j ≤ U i j ( i ≠ j ) D_{ii}\geq L_i,D_{ij}\leq U_{ij}(i\neq j) DiiLi,DijUij(i=j)

  • 最小化最大错误率(变量 T = ( t 1 , . . . , t k ) T=(t_{1},...,t_{k}) T=(t1,...,tk))
    min ⁡ max ⁡ j P j e s . t . t . k ≥ 0 , 1 T t . k = 1 \min{\max_j{P_j^e}} \\s.t. t_{.k}\geq 0,1^Tt_{.k}=1 minjmaxPjes.t.t.k0,1Tt.k=1

Binary Case

  • 概率转移矩阵
    D = [ T p T q ] = [ 1 − P f p P f n P f p 1 − P f n ] D=\begin{bmatrix}T_p&T_q\end{bmatrix}=\begin{bmatrix}1-P_{fp}&P_{fn}\\P_{fp}&1-P_{fn}\end{bmatrix} D=[TpTq]=[1PfpPfpPfn1Pfn]

    • P f p P_{fp} Pfp是False Positive, P f n P_{fn} Pfn是False Negative,相互竞争
  • [多条件]最小探测器设计
    min ⁡ T ∈ R 2 × n ( P f p , P f n ) = ( ( T p ) 2 , ( T q ) 1 ) [ w . r . t R + 2 ] s . t . t 1 k + t 2 k = 1 , t i k ≥ 0 , i = 1 , 2 , k = 1 , . . , n \min_{T\isin R^{2\times n}}(P_{fp},P_{fn})=((T_p)_2,(T_q)_1)[w.r.t R_+^2] \\s.t. t_{1k}+t_{2k}=1,t_{ik}\geq0,i=1,2,k=1,..,n TR2×nmin(Pfp,Pfn)=((Tp)2,(Tq)1)[w.r.tR+2]s.t.t1k+t2k=1,tik0,i=1,2,k=1,..,n

    • [min-D]标量化: λ > 0 \lambda>0 λ>0
      min ⁡ ( T p ) 2 + λ ( T q ) 1 s . t . t 1 k + t 2 k = 1 , t i k ≥ 0 , i = 1 , 2 , k = 1 , . . , n \min(T_p)_2+\lambda(T_q)_1 \\s.t. t_{1k}+t_{2k}=1,t_{ik}\geq0,i=1,2,k=1,..,n min(Tp)2+λ(Tq)1s.t.t1k+t2k=1,tik0,i=1,2,k=1,..,n

    • 求解

    目 标 函 数 Q = ∑ k = 1 n t 2 k p k + λ ∑ k = 1 n t 1 k q k 拉 格 朗 日 L = Q − ∑ ∑ μ i k t i k + ∑ ν k ( t 1 k + t 2 k − 1 ) μ i k ≥ 0 , 互 补 松 弛 条 件 : μ i k t i k = 0 目标函数Q=\sum_{k=1}^nt_{2k}p_k+\lambda\sum_{k=1}^nt_{1k}q_k \\拉格朗日L=Q-\sum\sum\mu_{ik}t_{ik}+\sum\nu_k(t_{1k}+t_{2k}-1) \\\mu_{ik}\geq0,互补松弛条件:\mu_{ik}t_{ik}=0 Q=k=1nt2kpk+λk=1nt1kqkL=Qμiktik+νk(t1k+t2k1)μik0,:μiktik=0

    • 分别对 t 1 k 和 t 2 k t_{1k}和t_{2k} t1kt2k求偏导
      λ q k − μ 1 k + ν k = 0 p k − μ 2 k + ν k = 0 ( t 1 k , t 2 k ) = { ( 1 , 0 ) p k ≥ λ q k ( 0 , 1 ) p k < λ q k \lambda q_k-\mu_{1k}+\nu_k=0 \\p_k-\mu_{2k}+\nu_k=0 \\(t_{1k},t_{2k})=\begin{cases}(1,0)&p_k\geq \lambda q_k\\(0,1)&p_k<\lambda q_k\end{cases} λqkμ1k+νk=0pkμ2k+νk=0(t1k,t2k)={(1,0)(0,1)pkλqkpk<λqk
      p k ≠ λ q k p_k\neq\lambda q_k pk=λqk : 这是由似然比检验得到的确定性探测器

      p k = λ q k p_k=\lambda q_k pk=λqk : 对于某些k , t 1 k = 1 − t 2 k t_{1k}=1-t_{2k} t1k=1t2k(概率探测器)是最优的,比如:帕累托最优检测器包括非确定性检测器

  • [min-max(fp,fn)]最小最大探测器
    min ⁡ T max ⁡ ( P f p , P f n ) = max ⁡ { ( T p ) 2 , ( T q ) 1 } s . t . t 1 k + t 2 k = 1 , t i k ≥ 0 , i = 1 , 2 , k = 1 , . . , n \min_{T}\max(P_{fp},P_{fn})=\max\{(T_p)_2,(T_q)_1\} \\s.t. t_{1k}+t_{2k}=1,t_{ik}\geq0,i=1,2,k=1,..,n Tminmax(Pfp,Pfn)=max{(Tp)2,(Tq)1}s.t.t1k+t2k=1,tik0,i=1,2,k=1,..,n
    作为线性规划问题,解通常不是确定性的.
    在这里插入图片描述

ROC曲线

基本含义

真实情况预测结果-正例预测结果-反例含义统计量
正例TP(将正例正确预测为正例)FN(将正例错误预测为负例)TP + FN 表示实际数据集中正样本的数量召回率Recall / 灵敏度Sensitivity / TPR = TP/(TP+FN), 漏诊率 = 1 - 灵敏度
反例FP(将负例错误的预测为正例)TN(将负例正确的预测为负例)FP + TN 表示实际数据集中负样本的数量FPR = FP/(FP+TN), 特异度(Specificity) = 1 - FPR = TN/(FP+TN)
加和含义TP + FP 表示预测的正类样本数FN + TN 表示预测的负类样本数TP + FN + FP + TN 表示样本总数
统计量精确率Precision = TP/(TP+FP)正确率Accuracy = (TP+TN)/(TP+TN+FP+FN), 错误率 = (FP+FN)/(TP+TN+FP+FN), F-measure = 2*(Precision*Recall)/(Precision+Recall)

其中最重要的两个公式如下:

T P R = T P T P + F N , , F P R = F P F P + T N TPR = \frac{TP}{TP+FN},,FPR = \frac{FP}{FP+TN} TPR=TP+FNTP,,FPR=FP+TNFP
在ROC曲线图中,每个点以对应的FPR值为横坐标,TPR值为纵坐标

ROC曲线的绘制步骤如下:

  1. 假设已经得出一系列样本被划分为正类的概率Score值,按照大小排序。
  2. 从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于某个样本,其“Score”值为0.6,那么“Score”值大于等于0.6的样本都被认为是正样本,而其他样本则都认为是负样本。
  3. 每次选取一个不同的threshold,得到一组FPR和TPR,以FPR值为横坐标和TPR值为纵坐标,即ROC曲线上的一点。
  4. 根据3中的每个坐标点,画图。

AUC(Area Under Curve)表示ROC曲线下的面积,主要用于衡量模型的泛化性能,即分类效果的好坏。AUC是衡量二分类模型优劣的一种评价指标,表示正例排在负例前面的概率。

  • Two Alternative forced choice

    一次采两个样本分别由两个分布产生,不需要阈值,通过样本本身起到阈值作用,简单采用比较方法得到正确率

正 确 率 P ( x 1 > x 0 ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ I ( T ′ > T ) f 1 ( T ′ ) f 0 ( T ) d T d T ′ 正确率P(x_1>x_0)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}I(T'>T)f_1(T')f_0(T)dTdT' P(x1>x0)=++I(T>T)f1(T)f0(T)dTdT

实验设计

m次测量数据 y i = a i T x + w i , w i ∽ i i d N ( 0 , 1 ) , G = ∑ a i a i T y_i=a_i^Tx+w_i,w_i\backsim iid\mathcal{N}(0,1),G=\sum a_ia_i^T yi=aiTx+wi,wiiidN(0,1),G=aiaiT

最小二乘估计

x ^ = ( ∑ i = 1 m ( a i a i T ) ) − 1 ∑ i = 1 m y i a i = ( A T A ) − 1 A T y \hat{x}=(\sum_{i=1}^m(a_ia_i^T))^{-1}\sum_{i=1}^m y_ia_i =(A^TA)^{-1}A^Ty x^=(i=1m(aiaiT))1i=1myiai=(ATA)1ATy

  • 估计均值,
    E ( x ^ ) = E ( G − 1 G x + G − 1 ∑ a i w i ) = E ( w ) = 0 x E(\hat{x})=E(G^{-1}Gx+G^{-1}\sum a_iw_i)\xlongequal{E(w)=0}x E(x^)=E(G1Gx+G1aiwi)E(w)=0 x

  • 估计方差
    V a r ( x ^ ) = E ( ( x ^ − x ) ( x ^ − x ) T ) = E ( G − 1 ∑ i a i w i ) ( G − 1 ∑ j a j w j ) = i ≠ j 的 乘 积 为 0 E ( G − 1 ∑ i a i a i T G − 1 w i 2 ) = E ( w i 2 ) = 1 G − 1 Var(\hat{x})=E((\hat{x}-x)(\hat{x}-x)^T)=E(G^{-1}\sum_i a_iw_i)(G^{-1}\sum_j a_jw_j) \\\xlongequal{i\neq j的乘积为0}E(G^{-1}\sum_i a_ia_i^TG^{-1}w_i^2)\xlongequal{E(w_i^2)=1}G^{-1} Var(x^)=E((x^x)(x^x)T)=E(G1iaiwi)(G1jajwj)i=j0 E(G1iaiaiTG1wi2)E(wi2)=1 G1

  • 于是需要找到序列 a i ∈ { v 1 , . . . , v p } a_i\isin\{v_1,...,v_p\} ai{v1,...,vp},使得 V a r = G − 1 Var=G^{-1} Var=G1最小

min ⁡ ( ∑ k = 1 p m k v k v k T ) − 1 s . t . m k ≥ 0 , m 1 + . . + m p = m , m k ∈ Z \min{(\sum_{k=1}^pm_kv_kv_k^T)^{-1}} \\s.t. m_k\geq0,m_1+..+m_p=m,m_k\isin \mathbb{Z} min(k=1pmkvkvkT)1s.t.mk0,m1+..+mp=m,mkZ

求变量 m k m_k mk,在整数规划中很难求解

  • 松弛实验设计

    假设m远大于p,定义实数 λ k = m k m \lambda_k=\frac{m_k}{m} λk=mmk
    E = min ⁡ 1 m ( ∑ k = 1 p λ k v k v k T ) − 1 s . t . λ ≥ 0 , 1 T λ = 1 E=\min{\frac1m(\sum_{k=1}^p\lambda_kv_kv_k^T)^{-1}} \\s.t. \lambda\geq0,\mathbb{1}^T\lambda=1 E=minm1(k=1pλkvkvkT)1s.t.λ0,1Tλ=1

    • 常见的标量化: min ⁡ log ⁡ d e t ( E ) , t r ( E ) , λ m a x ( E ) \min\log det(E),tr(E),\lambda_{max}(E) minlogdet(E),tr(E),λmax(E)
    • 可以加入其他凸约束:比如定界 c T λ ≤ B c^T\lambda\leq B cTλB

D-optimal design

min ⁡ log ⁡ det ⁡ ( ∑ k = 1 p λ k v k v k T ) − 1 s . t . λ ≥ 0 , 1 T λ = 1 \min{\log\det(\sum_{k=1}^p\lambda_kv_kv_k^T)^{-1}} \\s.t. \lambda\geq0,\mathbb{1}^T\lambda=1 minlogdet(k=1pλkvkvkT)1s.t.λ0,1Tλ=1

就是最小化置信椭球的体积.

  • dual problem化为对偶问题
    max ⁡ log ⁡ det ⁡ W + n log ⁡ n s . t . v k T W v k ≤ 1 , k = 1 , . . , p \max\log\det W+n\log n \\s.t. v_k^TW{v_k}\leq1,k=1,..,p maxlogdetW+nlogns.t.vkTWvk1,k=1,..,p
    { x ∣ x T W x ≤ 1 } \{x|x^TWx≤1\} {xxTWx1}是以原点为中心的最小体积的椭球,其中包括所有测试向量 v k v_k vk

  • complementary slackness互补松弛条件
    λ k ( 1 − v k T W v k ) = 0 , k = 1 , . . , p \lambda_k(1-v_k^TWv_k)=0,k=1,..,p λk(1vkTWvk)=0,k=1,..,p
    最优的实验:是在 W λ W_\lambda Wλ定义(最小椭球)的边界上使用 v k v_k vk

  • 实验结果
    在这里插入图片描述
    ​ 一共有20个向量 v k v_k vk符合,但由最优 W λ W_\lambda Wλ边界确定的只有两个 λ ≠ 0 \lambda\neq0 λ=0的向量

总结

  • logistics回归-二分类

    • 先拟合决策边界(不局限于线性,还可以是多项式),再建立这个边界与分类的概率 y ^ \hat{y} y^联系,从而得到了二分类情况下的概率。
    • 最大化似然函数    ⟺    \iff 最大化交叉熵;,最大化似然函数    ⟺    \iff 最小化损失函数
    • Logistic 回归的本质是 : 假设数据(分类概率)服从这个分布,然后使用极大似然估计做参数的估计.
  • 最大似然估计MLE

    • 模型(分布)估计 : 从观测数据中的一组随机变量 , 估计概率密度 p ( y ) p(y) p(y)

    • 参数估计 : 从一簇密度函数中 , 根据参数 x x x选择概率密度 p x ( y ) p_x(y) px(y)

    • 带噪的线性测量模型

      max ⁡ l ( x ) = ∑ i = 1 m log ⁡ p ( y i − a i T x ) \max{l(x)=\sum_{i=1}^m\log{p(y_i-a_i^Tx)}} maxl(x)=i=1mlogp(yiaiTx)

      • [L2]高斯分布

        max ⁡ x l ( x ) = min ⁡ x ∑ i = 1 m ( a i T x − y i ) 2 \max_x{l(x)}=\min_x{\sum\limits_{i=1}^m(a_i^Tx-y_i)^2} maxxl(x)=minxi=1m(aiTxyi)2 ; x M L E = x L S E x_{MLE}=x_{LSE} xMLE=xLSE

      • [L1]拉普拉斯分布

        max ⁡ x l ( x ) = min ⁡ x ∑ i = 1 m ∣ a i T x − y i ∣ \max_x{l(x)}=\min_x{\sum\limits_{i=1}^m|a_i^Tx-y_i|} maxxl(x)=minxi=1maiTxyi ; x M L E = x L 1 x_{MLE}=x_{L1} xMLE=xL1

      • 均匀分布

        max ⁡ x l ( x ) = − m log ⁡ ( 2 a ) , s . t . ∣ a i T x − y i ∣ ≤ a \max_x{l(x)}=-m\log{(2a)},s.t.|a_i^Tx-y_i|\leq a maxxl(x)=mlog(2a),s.t.aiTxyia

    • 最大后验概率MAP

      最大似然估计是求参数θ, 使似然函数P(x|θ)最大。最大后验概率估计则是想求θ使P(x|θ)P(θ)最大。

      求得的θ不单单让似然函数最大,θ自己出现的先验概率也得大.

    • 多项分布的MAP&MLE

      多面体实验,k=6个面,做M次实验

    • 无参数估计

      • 无参数估计:密度函数形式未知,利用训练数据直接对概率密度进行估计,又称模型无关法.
      • 参数估计:事先假定一种分布函数,利用样本数据估计其参数,又称基于模型法.
      • 最大熵原理 : 当预测一个随机事件概率分布时,在满足全部已知条件,而对未知情况不做任何主观假设,把未知事件当成等概率事件处理
  • 最优探测器设计-二分类

    • 假设检验

      • 存在两种假设分布
      • 包括确定性探测器,随机/概率探测器
    • 概率转移矩阵D=TP

      定义: P k j = P r o b ( X = k ∣ θ = j ) , t i k = P r o b ( θ ^ = i ∣ X = k ) P_{kj}=Prob(X=k|\theta=j),t_{ik}=Prob(\hat\theta=i|X=k) Pkj=Prob(X=kθ=j),tik=Prob(θ^=iX=k)

    • 最优探测器

      最小化最大错误率 min ⁡ max ⁡ j P j e \min{\max_j{P_j^e}} minmaxjPje

    • Binary Case

      • 最小探测器设计-可得到的确定性探测器
      • 最小最大探测器-通常会得到概率探测器
    • ROC曲线

      • AUC表示ROC曲线下的面积,主要用于衡量模型的泛化性能,即分类效果的好坏。

      • Two Alternative forced choice:两两样本比较得到正确率

  • 实验设计-举例

    • 最小二乘估计
    • D-optimal design[松]

参考

逻辑回归,建议自己看细节

逻辑回归为什么用Sigmoid

ROC曲线

总结

凸优化PPT

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值