第 3 章 线 性 模 型

第 3 章 线 性 模 型

3 . 1 线性回归

f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x)=w1x1+w2x2+...+wdxd+b f(x)=w1x1+w2x2+...+wdxd+b

给定由d个属性描述的示例 x = (x1;x2 ; … ;x3 ), 其 中 xi是 x 在 第 i 个属 性 上 的 取 值 。

一般用向量形式写成:
f ( x ) = w T x + b f(x)=wTx+b f(x)=wTx+b
线性回归 模型的最小二乘“参 数 估 计 "

均方误差是回归任务中最常用的性能度量,因此我们可试图让均 方误差最小化,即
( w ∗ , b ∗ ) = a r g m i n Σ ( f ( x i ) − y i ) 2 (w*,b*)=argminΣ(f(xi)-yi)2 (w,b)=argminΣ(f(xi)yi)2
对上式子分别对w,b求偏导,令上式子等于零时可以得到

w = Σ y i ( x i − x − / ( ∑ x i 2 − 1 / m ) 1 / m ( Σ x i ) 2 w= Σyi(xi-x^-/(∑xi^2-1/m) 1/m(Σxi)^2 w=Σyi(xix/(xi21/m)1/m(Σxi)2

b = 1 / m ∑ ( y i − w x i ) b=1/m ∑ (yi-wxi) b=1/m(yiwxi)
极大似然估计:
L ( Θ ) = ∏ P ( x i ; Θ ) L(\Theta )=\prod P(xi;\Theta ) L(Θ)=P(xi;Θ)
​ 极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

3.2 多元线性回归

f ( x i ) = w T x i + b f(xi)=w^{T}xi+b f(xi)=wTxi+b

f ( x i ) = ( w 1 , w 2 , w 3 , . . . , w d ) ( x i 1 x i d ) f(xi)=(w1,w2,w3,...,wd)\binom{xi1}{xid} f(xi)=(w1,w2,w3,...,wd)(xidxi1)

对数线性回归

在这里插入图片描述
$$
lny=w^T + b

$$

y = g − 1 ( w T + b ) y=g^-1(w^T + b) y=g1(wT+b)

这样得到的模型称为“广义线性模型" 显然,对数线性回归是广义线性模型在g () = In()时的特例.

3 .3 对数几率回归

若要做的是分类任务该 怎么办?只需找一个单调可微函数将 分类任务的真实标记y 与线性回归模型的预测值联系起来.

y = 1 1 + e − z y=\frac{1}{1+e^-z} y=1+ez1
类似于式广义线性模型,该式子可变化为
l n y 1 − y = w T + b ln\frac{y}{1-y}=w^T+b ln1yy=wT+b
若将y 视为样本x 作为正例的可能性,则 1 - y 是其反例可能性,两者的比值:
y / ( 1 − y ) y/(1-y) y/(1y)

对几率取对数则得到 “对数几率”(log odds,亦称logit)
l n y 1 − y ln \frac{y}{1-y} ln1yy
的y 视为类 后验概率估计
l n p ( y = 0 ∣ x ) p ( y = 1 ∣ x ) = w T + b ln \frac{p(y=0∣x)}{p(y=1∣x)}=w^T+b lnp(y=1x)p(y=0x)=wT+b
显然有
p ( y = 1 ∣ x ) = e w T x + b 1 + e w T x + b p(y=1∣x)=\frac{ew^Tx+b}{1+ew^Tx+b} p(y=1x)=1+ewTx+bewTx+b

p ( y = 0 ∣ x ) = e w T x + b 1 + e w T x + b p(y=0∣x)=\frac{ew^Tx+b}{1+ew^Tx+b} p(y=0x)=1+ewTx+bewTx+b
于是,我 们 可 通 过 “极大似然法”(maximum likelihood method)来估计, w 和 b

L ( β ) = i = 1 ∏ m p ( y i ∣ x i ; β ) L(β)= i=1∏m p(yi∣ x i ^;β) L(β)=i=1mp(yixi;β)
两边取对数
ln ⁡ L ( β ) = ∑ i = 1 m ln ⁡ ( y i p 1 ( x i ^ ; β ) + ( 1 − y i ) p 0 ( x ^ ; β ) ) \ln L(\beta)= \sum_{i=1}^m \ln (y_ip_1(\hat{x_i};\beta)+(1-y_i)p_0(\hat{x};\beta)) lnL(β)=i=1mln(yip1(xi^;β)+(1yi)p0(x^;β))
上式达到最小
ℓ ( β ) = ∑ ( − y i β T x i + l n ( 1 + e β T x i ) ) ℓ(β)= ∑(−y i β T x i^ +ln(1+e^βTxi)) (β)=(yiβTxi+ln(1+eβTxi))
信息论

信息熵
H ( X ) = E [ I ( X ) ] = − ∑ x p ( x ) l o g b p ( x ) H(X) = E[I(X)]=-\sum_{x}p(x)log_bp(x) H(X)=E[I(X)]=xp(x)logbp(x)

3.4 线性判别分析

​ 线性判别分析(Linear Discriminant Analysis,简 称 LDA)是一种经典的线 FihZ 性学习方法。

​ LDA的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上, 使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样 本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新 样本的类别
在这里插入图片描述

目标函数最小化

[外链图片转存中...(img-ld7IOAmT-1655732757677)]

所以
L ( w , λ ) = − w T b w + λ ( w T S w w − 1 ) L(w,λ)=−w^Tbw+λ(w^TSww−1) L(w,λ)=wTbw+λ(wTSww1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值