Statistical estimation
Logistic 回归-二分类
样本 { ( x i , y i ) } i = 1 m \{(x_i,y_i)\}_{i=1}^m {(xi,yi)}i=1m,假设观测数据 y i y_i yi符合线性模型 y i = x i w + v i , v i y_i=x_iw+v_i,v_i yi=xiw+vi,vi是噪声, x x x是真实值. w w w是待求的模型/参数/权值.
整体分类思路
-
回顾拟合问题 : 最小二乘法LSE
LS : J ( w ) = min 1 2 ∑ i = 1 m ( y i − x i w ) 2 J(w)=\min{\frac12\sum\limits_{i=1}^m(y_i-x_iw)^2} J(w)=min21i=1∑m(yi−xiw)2
-
分类问题 : y i ∈ { 0 , 1 } y_i\isin\{0,1\} yi∈{0,1}
因为普通的线性模型无法将 y i y_i yi限定在[0,1]之间(作为概率),又因为普通阶跃函数不可微 , 所以考虑使用sigmoid函数对分类概率建模.
p = p r o b ( y = 1 ) = y ^ = 1 e − z + 1 = { 1 z = + ∞ ( 0 , 1 ) o t h e r w i s e 0 z = − ∞ p=prob(y=1)=\hat{y}=\frac{1}{e^{-z}+1}=\begin{cases}1&z=+\infty\\(0,1)&otherwise\\0&z=-\infty\end{cases} p=prob(y=1)=y^=e−z+11=⎩⎪⎨⎪⎧1(0,1)0z=+∞otherwisez=−∞
其中 z = x w , 样 本 { ( x i , y i ) } i = 1 m , w 是 待 估 计 的 参 数 z=xw,样本\{(x_i,y_i)\}_{i=1}^m,w是待估计的参数 z=xw,样本{(xi,yi)}i=1m,w是待估计的参数分类(连接link函数) : 如果 y ^ \hat{y} y^大于阈值0.5,那么就判定 y ^ = 1 \hat{y}=1 y^=1,否则就是$\hat{y}=$0
根据已知的概率分布函数(sigmoid函数)的求导,得到 x w + v = log ( P ( y = 1 ∣ x ) 1 − P ( y = 1 ∣ x ) ) xw+v=\log{(\frac{P(y=1|x)}{1-P(y=1|x)})} xw+v=log(1−P(y=1∣x)P(y=1∣x))
逻辑回归的思路是,先拟合决策边界(不局限于线性,还可以是多项式),再建立这个边界与分类的概率 y ^ \hat{y} y^联系,从而得到了二分类情况下的概率。
其中,实线是分类概率(sigmoid)函数的最大估计曲线,存在50个样本点.
最大化似然函数
设: P ( y = 1 ∣ x ) = y ^ ; P ( y = 0 ∣ x ) = 1 − y ^ P(y=1|x)=\hat{y};P(y=0|x)=1-\hat{y} P(y=1∣x)=y^;P(y=0∣x)=1−y^
似然函数: L ( w ) = Π [ y i ^ ] y i [ 1 − y i ^ ] 1 − y i L(w)=\Pi[\hat{y_i}]^{y_i}[1-\hat{y_i}]^{1-y_i} L(w)=Π[yi^]yi[1−yi^]1−yi
-
为了方便求解,写成对数似然函数:
log L ( w ) = ∑ [ y log y ^ + ( 1 − y ) log ( 1 − y ^ ) ] ⟺ \log{L(w)}=\sum[y\log{\hat{y}}+(1-y)\log{(1-\hat{y})}]\iff logL(w)=∑[ylogy^+(1−y)log(1−y^)]⟺交叉熵公式
= ∑ [ y log y ^ 1 − y ^ + log ( 1 − y ^ ) ] = ∑ i = 1 k [ y = 1 ] ( x w ) − ∑ i = 1 m [ y = 0 ] log ( 1 + e x w ) =\sum[y\log{\frac{\hat{y}}{1-\hat{y}}}+\log{(1-\hat{y})}]=\sum\limits_{i=1}^{k[y=1]}(xw)-\sum\limits_{i=1}^{m[y=0]}\log(1+e^{xw}) =∑[ylog1−y^y^+log(1−y^)]=i=1∑k[y=1](xw)−i=1∑m[y=0]log(1+exw)
无论 y = 1 / 0 y=1/0 y=1/0,函数对于 w w w都是凹函数.
-
所以,最大化似然函数 ⟺ \iff ⟺最大化交叉熵
-
求解方法 : 梯度下降和牛顿法
因为机器学习里,损失函数衡量的是模型预测错误的程度,也就是 J ( w ) = − 1 / N log L ( w ) J(w)=-1/N\log{L(w)} J(w)=−1/NlogL(w),表现为
c o s t ( y ^ , y ) = { − log y ^ y = 1 − log 1 − y ^ y = 0 cost(\hat{y},y)=\begin{cases}-\log{\hat{y}}&y=1\\-\log{1-\hat{y}}&y=0\end{cases} cost(y^,y)={−logy^−log1−y^y=1y=0,所以基于最大似然估计MLE的逻辑回归,其损失函数是凸函数.
- 所以,最大化似然函数 ⟺ \iff ⟺最小化损失函数
Logistic 回归的本质是 : 假设数据(分类概率)服从这个分布,然后使用极大似然估计做参数的估计.
-
所以 y y y可以从概率的角度去解释.
y = F ( z ) = P ( Z ≤ z ) = 1 1 + e − ( z − μ ) / γ f ( z ) = F ′ ( Z ≤ z ) = e − ( z − μ ) / γ γ ( 1 + e − ( z − μ ) / γ ) 2 y=F(z)=P(Z\leq z)=\frac{1}{1+e^{-(z-\mu)/\gamma}} \\f(z)=F'(Z\leq z)=\frac{e^{-(z-\mu)/\gamma}}{\gamma(1+e^{-(z-\mu)/\gamma})^2} y=F(z)=P(Z≤z)=1+e−(z−μ)/γ1f(z)=F′(Z≤z)=γ(1+e−(z−μ)/γ)2e−(z−μ)/γ
Logistic 分布是由其位置参数 μ \mu μ和尺度参数 γ \gamma γ定义的连续分布。
Logistic 分布的形状与正态分布的形状相似,但是 Logistic 分布的尾部更长,所以我们可以使用 Logistic 分布来建模比正态分布具有更长尾部和更高波峰的数据分布。在深度学习中常用到的 Sigmoid 函数就是 Logistic 的分布函数在 μ = 1 , γ = 1 \mu=1,\gamma=1 μ=1,γ=1的特殊形式。当因变量服从伯努利分布时,广义线性模型就为逻辑回归
最大似然估计MLE
- 模型(分布)估计 : 从观测数据中的一组随机变量 , 估计概率密度 p ( y ) p(y) p(y)
- 参数估计 : 从一簇密度函数中 , 根据参数 x x x选择概率密度 p x ( y ) p_x(y) px(y)
最大似然估计就是用于参数估计中(具体可以参考概率图模型的"学习"部分),定义如下:
max
x
log
p
x
(
y
)
\max_x{\log{p_x(y)}}
xmaxlogpx(y)
y
y
y是观测数据;
x x x是参数,可以进行限制( x ∉ C then p x ( y ) = 0 x\notin C\text{ then }p_x(y)=0 x∈/C then px(y)=0);
l ( x ) = log p x ( y ) l(x)=\log{p_x(y)} l(x)=logpx(y)是对数似然函数,是凹函数(固定 y y y时),所以取对数可以转变为求解凸函数问题.
带独立同分布噪音的线性测量模型
y i = a i T x + v i , i = 1 , . . . , m y_i=a_i^Tx+v_i,i=1,...,m yi=aiTx+vi,i=1,...,m
x x x待求的未知参数向量 [就是前面的 w w w]
v i v_i vi是独立同分布噪音(IID measurement noise),密度 p ( z ) p(z) p(z)
y i y_i yi是观测数据,密度 p x ( y ) = Π i = 1 m p ( y i − a i T x ) p_x(y)=\Pi_{i=1}^mp(y_i-a_i^Tx) px(y)=Πi=1mp(yi−aiTx)
最大似然函数,求解x:
max
l
(
x
)
=
∑
i
=
1
m
log
p
(
y
i
−
a
i
T
x
)
\max{l(x)=\sum_{i=1}^m\log{p(y_i-a_i^Tx)}}
maxl(x)=i=1∑mlogp(yi−aiTx)
v i v_i vi是高斯分布
v i ∽ N ( 0 , σ 2 ) , p ( z ) = ( 2 π σ 2 ) e − z 2 2 σ 2 v_i\backsim\mathcal{N}(0,\sigma^2),p(z)=\sqrt{(2\pi\sigma^2)}e^{-\frac{z^2}{2\sigma^2}} vi∽N(0,σ2),p(z)=(2πσ2)e−2σ2z2
似然函数: l ( x ) = − m 2 log ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 m ( a i T x − y i ) 2 l(x)=-\frac m2\log{(2\pi\sigma^2)}-\frac1{2\sigma^2}\sum\limits_{i=1}^m(a_i^Tx-y_i)^2 l(x)=−2mlog(2πσ2)−2σ21i=1∑m(aiTx−yi)2
似然函数的前一项固定不变,只有第二项受样本数据影响
-
在最小二乘逼近问题中,逼近的解 x L S E = arg min x ∣ ∣ A x − y ∣ ∣ 2 2 x_{LSE}=\arg\min_x{||Ax-y||_2^2} xLSE=argminx∣∣Ax−y∣∣22
-
在最大似然估计问题中,极值点 max x l ( x ) = min x ∑ i = 1 m ( a i T x − y i ) 2 \max_x{l(x)}=\min_x{\sum\limits_{i=1}^m(a_i^Tx-y_i)^2} maxxl(x)=minxi=1∑m(aiTx−yi)2
-
可以发现该问题下 x M L E = x L S E x_{MLE}=x_{LSE} xMLE=xLSE
意味着当我们用最小二乘逼近时,暗含着近似误差服从正态分布
v i v_i vi是拉普拉斯分布
p ( z ) = 1 2 s e − ∣ z ∣ s , s > 0 p(z)=\frac 1{2s}e^{-\frac{|z|}{s}},s>0 p(z)=2s1e−s∣z∣,s>0
似然函数: l ( x ) = − m log ( 2 s ) − 1 s ∑ i = 1 m ∣ a i T x − y i ∣ l(x)=-m\log{(2s)}-\frac1{s}\sum\limits_{i=1}^m|a_i^Tx-y_i| l(x)=−mlog(2s)−s1i=1∑m∣aiTx−yi∣
- 最小 L 1 L1 L1范数问题的解 x L 1 = arg min x ∑ i = 1 m ∣ a i T x − y i ∣ x_{L1}=\arg\min_x\sum\limits_{i=1}^m|a_i^Tx-y_i| xL1=argminxi=1∑m∣aiTx−yi∣
- 在最大似然估计问题中,极值点 max x l ( x ) = min x ∑ i = 1 m ∣ a i T x − y i ∣ \max_x{l(x)}=\min_x{\sum\limits_{i=1}^m|a_i^Tx-y_i|} maxxl(x)=minxi=1∑m∣aiTx−yi∣
- 因此 x M L E = x L 1 x_{MLE}=x_{L1} xMLE=xL1
v i v_i vi是均匀分布
p ( z ) = 1 2 a , z ∈ [ − a , a ] p(z)=\frac1{2a},z\isin[-a,a] p(z)=2a1,z∈[−a,a]
似然函数: l ( x ) = { − m log ( 2 a ) ∣ a i T x − y i ∣ ≤ a − ∞ o t h e r w i s e l(x)=\begin{cases}-m\log{(2a)}&|a_i^Tx-y_i|\leq a\\-\infty&otherwise\end{cases} l(x)={−mlog(2a)−∞∣aiTx−yi∣≤aotherwise
在最大似然估计问题中,极值点 max x l ( x ) = − m log ( 2 a ) , s . t . ∣ a i T x − y i ∣ ≤ a \max_x{l(x)}=-m\log{(2a)},s.t.|a_i^Tx-y_i|\leq a maxxl(x)=−mlog(2a),s.t.∣aiTx−yi∣≤a
最大后验概率MAP估计
贝叶斯公式: p ( y ∣ x ) = p ( x , y ) p ( x ) = p ( x ∣ y ) p ( y ) p ( x ) p(y|x)=\frac{p(x,y)}{p(x)}=\frac{p(x|y)p(y)}{p(x)} p(y∣x)=p(x)p(x,y)=p(x)p(x∣y)p(y)
x是待估计参数向量[在EM算法表示为θ],y是观测向量,两者均是随机变量,因为样本固定,所以先验知识 p ( x ) 和 p ( y ) p(x)和p(y) p(x)和p(y)相互独立,基于样本的 p ( y ) p(y) p(y)保持不变,可忽略.
max x ( log p ( y ∣ x ) + log p ( x ) ) = max x log p ( x ∣ y ) \max_x(\log{p(y|x)}+\log{p(x)})=\max_x\log{p(x|y)} maxx(logp(y∣x)+logp(x))=maxxlogp(x∣y) , p ( x ∣ y ) p(x|y) p(x∣y)表示基于观测y后,对x的了解程度–后验概率
- 最大似然估计是求参数x, 使似然函数P(y|x)最大。
- 最大后验概率估计则是想求x使P(y|x)P(x)最大。求得的x不单单让似然函数最大,x自己出现的先验概率也得大。
- 这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法。
p ( x ∣ y ) p(x|y) p(x∣y)表示基于观测y后,对x的了解程度.
- 例子[均匀分布]
若 v i ∽ [ − a , a ] , x ∽ N ( x ˉ , ∑ ) v_i\backsim[-a,a],x\backsim\mathcal{N(\bar{x},\sum)} vi∽[−a,a],x∽N(xˉ,∑)
于是变成求解
min
−
log
(
exp
−
(
x
−
x
ˉ
)
T
Σ
−
1
(
x
−
x
ˉ
)
)
s
.
t
.
∣
a
i
T
x
−
y
i
∣
≤
a
,
i
=
1
,
.
.
.
,
m
\min{-\log{(\exp{-(x-\bar{x})^T\Sigma^{-1}(x-\bar{x})}})} \\s.t. |a_i^Tx-y_i|\leq a,i=1,...,m
min−log(exp−(x−xˉ)TΣ−1(x−xˉ))s.t.∣aiTx−yi∣≤a,i=1,...,m
多项分布的MAP&MLE
-
例子:多面体实验,k=6个面,做M次实验
θ = { p 1 , p 2 , . . . , p k } T , p i 表 示 得 第 i 个 面 的 概 率 \theta=\{p_1,p_2,...,p_k\}^T,p_i表示得第i个面的概率 θ={p1,p2,...,pk}T,pi表示得第i个面的概率
x = { x 1 , x 2 , . . . , x k } T , x i 表 示 第 i 面 是 数 量 x=\{x_1,x_2,...,x_k\}^T,x_i表示第i面是数量 x={x1,x2,...,xk}T,xi表示第i面是数量
MAP: arg max θ P ( θ ∣ x ) \arg\max_\theta P(\theta|x) argmaxθP(θ∣x)
MLE: arg max θ P ( x ∣ θ ) \arg\max_\theta P(x|\theta) argmaxθP(x∣θ)
-
在某种概率分布( θ \theta θ决定)下,在M次实验产生的组合数越多,就越有可能囊括某一具体的M次实验结果的组合情况.
-
组合数 Ω = M ! ( x 1 ) ! ( x 2 ) ! . . . ( x k ) ! \Omega=\frac{M!}{(x_1)!(x_2)!...(x_k)!} Ω=(x1)!(x2)!...(xk)!M!
-
极大对数似然函数 ln L ( θ ) = ln ( Ω Π i k ( p i x i ) ) = ln M ! − ∑ i k ln ( x i ! ) + ∑ i k x i ln p i \ln{L(\theta)}=\ln{(\Omega\Pi_i^k{(p_i^{x_i})})}=\ln{M!}-\sum_i^k\ln(x_i!)+\sum_i^k{x_i\ln{p_i}} lnL(θ)=ln(ΩΠik(pixi))=lnM!−∑ikln(xi!)+∑ikxilnpi
max p i ln L ( θ ) s . t . ∑ i k p i = 1 L = ln L ( θ ) − λ ( ∑ i k p i − 1 ) \max_{p_i}{\ln{L(\theta)}} \\s.t.\sum_i^k{p_i}=1 \\\mathcal{L}=\ln{L(\theta)-\lambda(\sum_i^k{p_i}-1)} pimaxlnL(θ)s.t.i∑kpi=1L=lnL(θ)−λ(i∑kpi−1)
分别对 p i p_i pi求导,得到 x i p i − λ = 0 → p i ∗ = x i λ \frac{x_i}{p_i}-\lambda=0\rightarrow p_i^*=\frac{x_i}{\lambda} pixi−λ=0→pi∗=λxi又因为 ∑ i k p i = 1 → λ = N , p i ∗ = x i N \sum_i^k{p_i}=1\rightarrow \lambda=N,p_i^*=\frac{x_i}{N} ∑ikpi=1→λ=N,pi∗=Nxi
无参数估计
-
无参数估计:密度函数形式未知,利用训练数据直接对概率密度进行估计,又称模型无关法.
-
参数估计:事先假定一种分布函数,利用样本数据估计其参数,又称基于模型法.
KNN近邻法:是样本估计类概率密度P(x|w_i)
Parzen窗口法:是样本估计后验概率P(w_i|x)
最大熵原理
最大熵原理 : 当预测一个随机事件概率分布时,在满足全部已知条件,而对未知情况不做任何主观假设,把未知事件当成等概率事件处理。
-
最大熵: H ( P ) = − ∑ i k P i log P i , s . t ( 0 ≤ H ( P ) ≤ log ∣ x ∣ H(P)=-\sum_i^kP_i\log{P_i},s.t(0\leq H(P)\leq\log{|x|} H(P)=−∑ikPilogPi,s.t(0≤H(P)≤log∣x∣
∣ x ∣ |x| ∣x∣是数据中取x值的个数, x ∽ x\backsim x∽均匀分布
-
Kullback-Leiber散度: K L ( P ∣ ∣ q ) = ∑ i n P i log P i q i , 0 ≤ q i ≤ 1 , ∑ q i = 1 KL(P||q)=\sum_i^nP_i\log{\frac{P_i}{q_i}},0\leq q_i\leq 1,\sum q_i=1 KL(P∣∣q)=∑inPilogqiPi,0≤qi≤1,∑qi=1
关于未知分布最合理的推断 : 是符合已知的最随机/不确定的推断
最优探测器设计-二分类
假设检验
假定随机变量 X ∈ 1 , . . , n X\isin{1,..,n} X∈1,..,n
存在两种假设分布: p = ( p 1 , . . . , p n ) , q = ( q 1 , . . . , q n ) p=(p_1,...,p_n),q=(q_1,...,q_n) p=(p1,...,pn),q=(q1,...,qn)
-
确定性探测器deterministic detector
T = ( 1 0 . . . 1 0 1 . . . 0 ) T=\begin{pmatrix}1&0&...&1\\0&1&...&0\end{pmatrix} T=(1001......10) -
随机/概率探测器randomized detector
T = ( 0.7 0.5 . . . 0.2 0.3 0.5 . . . 0.8 ) T=\begin{pmatrix}0.7&0.5&...&0.2\\0.3&0.5&...&0.8\end{pmatrix} T=(0.70.30.50.5......0.20.8)
探测器/概率转移矩阵
定义: P k j = P r o b ( X = k ∣ θ = j ) , t i k = P r o b ( θ ^ = i ∣ X = k ) P_{kj}=Prob(X=k|\theta=j),t_{ik}=Prob(\hat\theta=i|X=k) Pkj=Prob(X=k∣θ=j),tik=Prob(θ^=i∣X=k)
-
T矩阵的每一列加起来是1
-
转移矩阵D=TP
D i j = P r o b ( θ ^ = i ∣ θ = j ) = ∑ k = 1 n P ( θ ^ = i ∣ x = k , θ = j ) P ( x = k ∣ θ = j ) = ∑ k t i k P k j = ( T P ) i j D_{ij}=Prob(\hat\theta=i|\theta=j) \\=\sum_{k=1}^nP(\hat\theta=i|x=k,\theta=j)P(x=k|\theta=j) \\=\sum_kt_{ik}P_{kj}=(TP)_{ij} Dij=Prob(θ^=i∣θ=j)=k=1∑nP(θ^=i∣x=k,θ=j)P(x=k∣θ=j)=k∑tikPkj=(TP)ij
最优探测器
-
正确率: P i d = D i i P_i^d=D_{ii} Pid=Dii
-
错误率: P i e = ∑ j ≠ i D j i P_i^e=\sum_{j\neq i}D_{ji} Pie=∑j=iDji
-
对错误率的限制[可行域问题]
D i i ≥ L i , D i j ≤ U i j ( i ≠ j ) D_{ii}\geq L_i,D_{ij}\leq U_{ij}(i\neq j) Dii≥Li,Dij≤Uij(i=j)
-
最小化最大错误率(变量 T = ( t 1 , . . . , t k ) T=(t_{1},...,t_{k}) T=(t1,...,tk))
min max j P j e s . t . t . k ≥ 0 , 1 T t . k = 1 \min{\max_j{P_j^e}} \\s.t. t_{.k}\geq 0,1^Tt_{.k}=1 minjmaxPjes.t.t.k≥0,1Tt.k=1
Binary Case
-
概率转移矩阵
D = [ T p T q ] = [ 1 − P f p P f n P f p 1 − P f n ] D=\begin{bmatrix}T_p&T_q\end{bmatrix}=\begin{bmatrix}1-P_{fp}&P_{fn}\\P_{fp}&1-P_{fn}\end{bmatrix} D=[TpTq]=[1−PfpPfpPfn1−Pfn]- P f p P_{fp} Pfp是False Positive, P f n P_{fn} Pfn是False Negative,相互竞争
-
[多条件]最小探测器设计
min T ∈ R 2 × n ( P f p , P f n ) = ( ( T p ) 2 , ( T q ) 1 ) [ w . r . t R + 2 ] s . t . t 1 k + t 2 k = 1 , t i k ≥ 0 , i = 1 , 2 , k = 1 , . . , n \min_{T\isin R^{2\times n}}(P_{fp},P_{fn})=((T_p)_2,(T_q)_1)[w.r.t R_+^2] \\s.t. t_{1k}+t_{2k}=1,t_{ik}\geq0,i=1,2,k=1,..,n T∈R2×nmin(Pfp,Pfn)=((Tp)2,(Tq)1)[w.r.tR+2]s.t.t1k+t2k=1,tik≥0,i=1,2,k=1,..,n-
[min-D]标量化: λ > 0 \lambda>0 λ>0
min ( T p ) 2 + λ ( T q ) 1 s . t . t 1 k + t 2 k = 1 , t i k ≥ 0 , i = 1 , 2 , k = 1 , . . , n \min(T_p)_2+\lambda(T_q)_1 \\s.t. t_{1k}+t_{2k}=1,t_{ik}\geq0,i=1,2,k=1,..,n min(Tp)2+λ(Tq)1s.t.t1k+t2k=1,tik≥0,i=1,2,k=1,..,n -
求解
目 标 函 数 Q = ∑ k = 1 n t 2 k p k + λ ∑ k = 1 n t 1 k q k 拉 格 朗 日 L = Q − ∑ ∑ μ i k t i k + ∑ ν k ( t 1 k + t 2 k − 1 ) μ i k ≥ 0 , 互 补 松 弛 条 件 : μ i k t i k = 0 目标函数Q=\sum_{k=1}^nt_{2k}p_k+\lambda\sum_{k=1}^nt_{1k}q_k \\拉格朗日L=Q-\sum\sum\mu_{ik}t_{ik}+\sum\nu_k(t_{1k}+t_{2k}-1) \\\mu_{ik}\geq0,互补松弛条件:\mu_{ik}t_{ik}=0 目标函数Q=k=1∑nt2kpk+λk=1∑nt1kqk拉格朗日L=Q−∑∑μiktik+∑νk(t1k+t2k−1)μik≥0,互补松弛条件:μiktik=0
-
分别对 t 1 k 和 t 2 k t_{1k}和t_{2k} t1k和t2k求偏导
λ q k − μ 1 k + ν k = 0 p k − μ 2 k + ν k = 0 ( t 1 k , t 2 k ) = { ( 1 , 0 ) p k ≥ λ q k ( 0 , 1 ) p k < λ q k \lambda q_k-\mu_{1k}+\nu_k=0 \\p_k-\mu_{2k}+\nu_k=0 \\(t_{1k},t_{2k})=\begin{cases}(1,0)&p_k\geq \lambda q_k\\(0,1)&p_k<\lambda q_k\end{cases} λqk−μ1k+νk=0pk−μ2k+νk=0(t1k,t2k)={(1,0)(0,1)pk≥λqkpk<λqk
p k ≠ λ q k p_k\neq\lambda q_k pk=λqk : 这是由似然比检验得到的确定性探测器p k = λ q k p_k=\lambda q_k pk=λqk : 对于某些k , t 1 k = 1 − t 2 k t_{1k}=1-t_{2k} t1k=1−t2k(概率探测器)是最优的,比如:帕累托最优检测器包括非确定性检测器
-
-
[min-max(fp,fn)]最小最大探测器
min T max ( P f p , P f n ) = max { ( T p ) 2 , ( T q ) 1 } s . t . t 1 k + t 2 k = 1 , t i k ≥ 0 , i = 1 , 2 , k = 1 , . . , n \min_{T}\max(P_{fp},P_{fn})=\max\{(T_p)_2,(T_q)_1\} \\s.t. t_{1k}+t_{2k}=1,t_{ik}\geq0,i=1,2,k=1,..,n Tminmax(Pfp,Pfn)=max{(Tp)2,(Tq)1}s.t.t1k+t2k=1,tik≥0,i=1,2,k=1,..,n
作为线性规划问题,解通常不是确定性的.
ROC曲线
基本含义
真实情况 | 预测结果-正例 | 预测结果-反例 | 含义 | 统计量 |
---|---|---|---|---|
正例 | TP(将正例正确预测为正例) | FN(将正例错误预测为负例) | TP + FN 表示实际数据集中正样本的数量 | 召回率Recall / 灵敏度Sensitivity / TPR = TP/(TP+FN), 漏诊率 = 1 - 灵敏度 |
反例 | FP(将负例错误的预测为正例) | TN(将负例正确的预测为负例) | FP + TN 表示实际数据集中负样本的数量 | FPR = FP/(FP+TN), 特异度(Specificity) = 1 - FPR = TN/(FP+TN) |
加和含义 | TP + FP 表示预测的正类样本数 | FN + TN 表示预测的负类样本数 | TP + FN + FP + TN 表示样本总数 | |
统计量 | 精确率Precision = TP/(TP+FP) | 正确率Accuracy = (TP+TN)/(TP+TN+FP+FN), 错误率 = (FP+FN)/(TP+TN+FP+FN), F-measure = 2*(Precision*Recall)/(Precision+Recall) |
其中最重要的两个公式如下:
T
P
R
=
T
P
T
P
+
F
N
,
,
F
P
R
=
F
P
F
P
+
T
N
TPR = \frac{TP}{TP+FN},,FPR = \frac{FP}{FP+TN}
TPR=TP+FNTP,,FPR=FP+TNFP
在ROC曲线图中,每个点以对应的FPR值为横坐标,TPR值为纵坐标
ROC曲线的绘制步骤如下:
- 假设已经得出一系列样本被划分为正类的概率Score值,按照大小排序。
- 从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于某个样本,其“Score”值为0.6,那么“Score”值大于等于0.6的样本都被认为是正样本,而其他样本则都认为是负样本。
- 每次选取一个不同的threshold,得到一组FPR和TPR,以FPR值为横坐标和TPR值为纵坐标,即ROC曲线上的一点。
- 根据3中的每个坐标点,画图。
AUC(Area Under Curve)表示ROC曲线下的面积,主要用于衡量模型的泛化性能,即分类效果的好坏。AUC是衡量二分类模型优劣的一种评价指标,表示正例排在负例前面的概率。
-
Two Alternative forced choice
一次采两个样本分别由两个分布产生,不需要阈值,通过样本本身起到阈值作用,简单采用比较方法得到正确率
正 确 率 P ( x 1 > x 0 ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ I ( T ′ > T ) f 1 ( T ′ ) f 0 ( T ) d T d T ′ 正确率P(x_1>x_0)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}I(T'>T)f_1(T')f_0(T)dTdT' 正确率P(x1>x0)=∫−∞+∞∫−∞+∞I(T′>T)f1(T′)f0(T)dTdT′
实验设计
m次测量数据 y i = a i T x + w i , w i ∽ i i d N ( 0 , 1 ) , G = ∑ a i a i T y_i=a_i^Tx+w_i,w_i\backsim iid\mathcal{N}(0,1),G=\sum a_ia_i^T yi=aiTx+wi,wi∽iidN(0,1),G=∑aiaiT
最小二乘估计
x ^ = ( ∑ i = 1 m ( a i a i T ) ) − 1 ∑ i = 1 m y i a i = ( A T A ) − 1 A T y \hat{x}=(\sum_{i=1}^m(a_ia_i^T))^{-1}\sum_{i=1}^m y_ia_i =(A^TA)^{-1}A^Ty x^=(i=1∑m(aiaiT))−1i=1∑myiai=(ATA)−1ATy
-
估计均值,
E ( x ^ ) = E ( G − 1 G x + G − 1 ∑ a i w i ) = E ( w ) = 0 x E(\hat{x})=E(G^{-1}Gx+G^{-1}\sum a_iw_i)\xlongequal{E(w)=0}x E(x^)=E(G−1Gx+G−1∑aiwi)E(w)=0x -
估计方差
V a r ( x ^ ) = E ( ( x ^ − x ) ( x ^ − x ) T ) = E ( G − 1 ∑ i a i w i ) ( G − 1 ∑ j a j w j ) = i ≠ j 的 乘 积 为 0 E ( G − 1 ∑ i a i a i T G − 1 w i 2 ) = E ( w i 2 ) = 1 G − 1 Var(\hat{x})=E((\hat{x}-x)(\hat{x}-x)^T)=E(G^{-1}\sum_i a_iw_i)(G^{-1}\sum_j a_jw_j) \\\xlongequal{i\neq j的乘积为0}E(G^{-1}\sum_i a_ia_i^TG^{-1}w_i^2)\xlongequal{E(w_i^2)=1}G^{-1} Var(x^)=E((x^−x)(x^−x)T)=E(G−1i∑aiwi)(G−1j∑ajwj)i=j的乘积为0E(G−1i∑aiaiTG−1wi2)E(wi2)=1G−1 -
于是需要找到序列 a i ∈ { v 1 , . . . , v p } a_i\isin\{v_1,...,v_p\} ai∈{v1,...,vp},使得 V a r = G − 1 Var=G^{-1} Var=G−1最小
min ( ∑ k = 1 p m k v k v k T ) − 1 s . t . m k ≥ 0 , m 1 + . . + m p = m , m k ∈ Z \min{(\sum_{k=1}^pm_kv_kv_k^T)^{-1}} \\s.t. m_k\geq0,m_1+..+m_p=m,m_k\isin \mathbb{Z} min(k=1∑pmkvkvkT)−1s.t.mk≥0,m1+..+mp=m,mk∈Z
求变量 m k m_k mk,在整数规划中很难求解
-
松弛实验设计
假设m远大于p,定义实数 λ k = m k m \lambda_k=\frac{m_k}{m} λk=mmk
E = min 1 m ( ∑ k = 1 p λ k v k v k T ) − 1 s . t . λ ≥ 0 , 1 T λ = 1 E=\min{\frac1m(\sum_{k=1}^p\lambda_kv_kv_k^T)^{-1}} \\s.t. \lambda\geq0,\mathbb{1}^T\lambda=1 E=minm1(k=1∑pλkvkvkT)−1s.t.λ≥0,1Tλ=1- 常见的标量化: min log d e t ( E ) , t r ( E ) , λ m a x ( E ) \min\log det(E),tr(E),\lambda_{max}(E) minlogdet(E),tr(E),λmax(E)
- 可以加入其他凸约束:比如定界 c T λ ≤ B c^T\lambda\leq B cTλ≤B
D-optimal design
min log det ( ∑ k = 1 p λ k v k v k T ) − 1 s . t . λ ≥ 0 , 1 T λ = 1 \min{\log\det(\sum_{k=1}^p\lambda_kv_kv_k^T)^{-1}} \\s.t. \lambda\geq0,\mathbb{1}^T\lambda=1 minlogdet(k=1∑pλkvkvkT)−1s.t.λ≥0,1Tλ=1
就是最小化置信椭球的体积.
-
dual problem化为对偶问题
max log det W + n log n s . t . v k T W v k ≤ 1 , k = 1 , . . , p \max\log\det W+n\log n \\s.t. v_k^TW{v_k}\leq1,k=1,..,p maxlogdetW+nlogns.t.vkTWvk≤1,k=1,..,p
{ x ∣ x T W x ≤ 1 } \{x|x^TWx≤1\} {x∣xTWx≤1}是以原点为中心的最小体积的椭球,其中包括所有测试向量 v k v_k vk -
complementary slackness互补松弛条件
λ k ( 1 − v k T W v k ) = 0 , k = 1 , . . , p \lambda_k(1-v_k^TWv_k)=0,k=1,..,p λk(1−vkTWvk)=0,k=1,..,p
最优的实验:是在 W λ W_\lambda Wλ定义(最小椭球)的边界上使用 v k v_k vk -
实验结果
一共有20个向量 v k v_k vk符合,但由最优 W λ W_\lambda Wλ边界确定的只有两个 λ ≠ 0 \lambda\neq0 λ=0的向量
总结
-
logistics回归-二分类
- 先拟合决策边界(不局限于线性,还可以是多项式),再建立这个边界与分类的概率 y ^ \hat{y} y^联系,从而得到了二分类情况下的概率。
- 最大化似然函数 ⟺ \iff ⟺最大化交叉熵;,最大化似然函数 ⟺ \iff ⟺最小化损失函数
- Logistic 回归的本质是 : 假设数据(分类概率)服从这个分布,然后使用极大似然估计做参数的估计.
-
最大似然估计MLE
-
模型(分布)估计 : 从观测数据中的一组随机变量 , 估计概率密度 p ( y ) p(y) p(y)
-
参数估计 : 从一簇密度函数中 , 根据参数 x x x选择概率密度 p x ( y ) p_x(y) px(y)
-
带噪的线性测量模型
max l ( x ) = ∑ i = 1 m log p ( y i − a i T x ) \max{l(x)=\sum_{i=1}^m\log{p(y_i-a_i^Tx)}} maxl(x)=∑i=1mlogp(yi−aiTx)
-
[L2]高斯分布
max x l ( x ) = min x ∑ i = 1 m ( a i T x − y i ) 2 \max_x{l(x)}=\min_x{\sum\limits_{i=1}^m(a_i^Tx-y_i)^2} maxxl(x)=minxi=1∑m(aiTx−yi)2 ; x M L E = x L S E x_{MLE}=x_{LSE} xMLE=xLSE
-
[L1]拉普拉斯分布
max x l ( x ) = min x ∑ i = 1 m ∣ a i T x − y i ∣ \max_x{l(x)}=\min_x{\sum\limits_{i=1}^m|a_i^Tx-y_i|} maxxl(x)=minxi=1∑m∣aiTx−yi∣ ; x M L E = x L 1 x_{MLE}=x_{L1} xMLE=xL1
-
均匀分布
max x l ( x ) = − m log ( 2 a ) , s . t . ∣ a i T x − y i ∣ ≤ a \max_x{l(x)}=-m\log{(2a)},s.t.|a_i^Tx-y_i|\leq a maxxl(x)=−mlog(2a),s.t.∣aiTx−yi∣≤a
-
-
最大后验概率MAP
最大似然估计是求参数θ, 使似然函数P(x|θ)最大。最大后验概率估计则是想求θ使P(x|θ)P(θ)最大。
求得的θ不单单让似然函数最大,θ自己出现的先验概率也得大.
-
多项分布的MAP&MLE
多面体实验,k=6个面,做M次实验
-
无参数估计
- 无参数估计:密度函数形式未知,利用训练数据直接对概率密度进行估计,又称模型无关法.
- 参数估计:事先假定一种分布函数,利用样本数据估计其参数,又称基于模型法.
- 最大熵原理 : 当预测一个随机事件概率分布时,在满足全部已知条件,而对未知情况不做任何主观假设,把未知事件当成等概率事件处理。
-
-
最优探测器设计-二分类
-
假设检验
- 存在两种假设分布
- 包括确定性探测器,随机/概率探测器
-
概率转移矩阵D=TP
定义: P k j = P r o b ( X = k ∣ θ = j ) , t i k = P r o b ( θ ^ = i ∣ X = k ) P_{kj}=Prob(X=k|\theta=j),t_{ik}=Prob(\hat\theta=i|X=k) Pkj=Prob(X=k∣θ=j),tik=Prob(θ^=i∣X=k)
-
最优探测器
最小化最大错误率 min max j P j e \min{\max_j{P_j^e}} minmaxjPje
-
Binary Case
- 最小探测器设计-可得到的确定性探测器
- 最小最大探测器-通常会得到概率探测器
-
ROC曲线
-
AUC表示ROC曲线下的面积,主要用于衡量模型的泛化性能,即分类效果的好坏。
-
Two Alternative forced choice:两两样本比较得到正确率
-
-
-
实验设计-举例
- 最小二乘估计
- D-optimal design[松]
参考