指数族分布、广义线性模型、逻辑回归前传

最新推荐文章于 2022-10-22 18:19:30 发布

howardact

最新推荐文章于 2022-10-22 18:19:30 发布

阅读量2k

点赞数

分类专栏： machineLearning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/howardact/article/details/53086009

版权

machineLearning 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

1、伯努利分布

伯努利分布（英语：Bernoulli distribution，又名两点分布或者0-1分布，是一个离散型概率分布，为纪念瑞士科学家雅各布·伯努利而命名。)若伯努利试验成功，则伯努利随机变量取值为1。若伯努利试验失败，则伯努利随机变量取值为0。记其成功概率为 $p (0\leq p\leq 1)，失败概率为 q=1-p$ 则

其概率密度函数为：

$f X (x) = p x (1 - p) 1 - x = ⎧ ⎩ ⎨ ⎪ ⎪ p i f x = 1, q = 1 - p i f x = 0, 0 o t h e r w i s e (1.1)$ $f_{X}(x)=p^{x}(1-p)^{1-x}=\left\{\begin{matrix} p \qquad \qquad \qquad if \space x=1, \\ q=1-p \qquad \quad if \space x=0, \\ 0 \qquad \qquad \qquad otherwise \end{matrix}\right.\tag{1.1}$
其期望值为

$E (X) = \sum i = 0 1 x i f X (x) = 0 * q + 1 * p = p (1.2)$ $E(X)=\sum_{i=0}^{1}x_{i}f_{X}(x)=0*q+1*p=p\tag{1.2}$
其方差为
$v a r (X) = \sum i = 0 1 (x i - E (x)) 2 f X (x) = (0 - p) 2 * (1 - p) + (1 - p) 2 * p = p q (1.3)$ $var(X)=\sum_{i=0}^{1}(x_{i}-E(x))^{2}f_{X}(x)=(0-p)^{2}*(1-p)+(1-p)^{2}*p=pq\tag{1.3}$

2、二项分布

二项分布为进行n次独立伯努利试验中成功的次数的离散概率分布。

2.1概率密度和累计概率密度

$一般地，如果随机变量 X服从参数为n和p的二项分布，我们记 X \sim b(n,p)或 X\sim B(n,p)$ ：

n次试验中正好得到k次成功的概率由概率质量函数:

$f (k; n, p) = P r (K = k) = (n k) p k (1 - p) n - k = C (n, k) p k (1 - p) n - k = n ! k ! ( n - k ) ! p k (1 - p) n - k$ $f(k;n,p) = Pr(K=k)=\begin{pmatrix}n \\ k \end{pmatrix}p^{k}(1-p)^{n-k}=C(n,k)p^{k}(1-p)^{n-k}=\frac{n!}{k!(n-k)!}p^{k}(1-p)^{n-k}$
累积概率密度函数为：

$F (x; n, p) = P r (X < x) = \sum i = 0 ⌊ x ⌋ (n i) p i (1 - p) n - i$ $F(x;n,p) = Pr(X<x)=\sum_{i=0}^{\left \lfloor x \right \rfloor}\begin{pmatrix}n \\ i \end{pmatrix}p^{i}(1-p)^{n-i}$

2.2、期望和方差

期望为：
- $E(X)=np$
方差为：
- $var(X)=np(1-p)$

3、指数族分布

3.1、指数族通式

指数族分布 (The exponential family distribution),区别于指数分布（exponential distribution)。在概率统计中，若某概率分布满足下式，我们就称之属于指数族分布：

p (y; η) = b (y) e x p (η T T (y) - a (η))

$p(y;\eta)=b(y)exp(\eta^{T}T(y)-a(\eta))$

其中η是natural parameter，T(y)是充分统计量，exp−a(η)起到归一化作用。 $其中\eta是natural \ parameter，T(y)是充分统计量，exp^{-a(\eta)}起到归一化作用。$

3.2、伯努利分布的指数形式

令伯努利分布的随机变量为y，发生的概率为p

y	1	0
p	$\phi$	$1-\phi$

则概率密度为：

p (y; ϕ) = ϕ y (1 - ϕ) 1 - y = e x p (l n ϕ y (1 - ϕ) 1 - y) = e x p (y ln ϕ 1 - ϕ + l n (1 - ϕ)) (3.2.1)

$p(y;\phi)=\phi^{y}(1-\phi)^{1-y}=exp\left( ln^{\phi^{y}(1-\phi)^{1-y}}\right )=exp\left(y\ln\frac{\phi}{1-\phi}+ln(1-\phi)\right)\tag{3.2.1}$

把伯努利分布写成指数族分布形式则：

T (y) = y (3.2.2)

$T(y)=y\tag{3.2.2}$

η = l n ϕ 1 - ϕ (3.2.3)

$\eta=ln\frac{\phi}{1-\phi}\tag{3.2.3}$

a (η) = - l n (1 - ϕ) = l n (1 + e η) (3.2.4)

$a(\eta)=-ln(1-\phi)=ln(1+e^{\eta})\tag{3.2.4}$

b (y) = 1 (3.2.5)

$b(y)=1\tag{3.2.5}$

4、广义线性模型

4.1、广义线性模型假设条件

$考虑一个分类或回归问题，我们就是想预测某个随机变量y，y 是某些特征(feature)x的函数。为了推导广义线性模式，我们必须做出如下三个假设:$

$p(y|x;\theta)服从指数族分布$
$给了x,我们为了预测T(y)=y在条件x下的期望，即E[T(y)|x]。通常情况下，T(y)=y,因此h_{\theta}(x)=E[y|x]$ .
$参数\eta\ 和输入x是线性相关的:\eta=\theta^{T}x$ .

4.2 逻辑回归

$考虑LR二分类问题，y∈0,1, 因为是二分类问题，我们很自然的选择p(y|x;θ)~Bernoulli(ϕ),即服从伯努利分布。那么$

h θ (x) = E (y | x; θ) (4.2.1)

$h_{\theta}(x)=E(y|x;\theta)\tag{4.2.1}$
因为伯努利分布期望性质，

E (y | x; θ) = ϕ (4.2.2)

$E(y|x;\theta)=\phi\tag{4.2.2}$ ，
并根据公式3.2.3可得：

ϕ = 1 1 + e - η (4.2.3)

$\phi=\frac{1}{1+e^{-\eta}}\tag{4.2.3}$
根据假设3

η=θTx,并联合4.2.1，4.2.2，4.2.3得： $\eta=\theta^{T}x,并联合4.2.1，4.2.2，4.2.3得：$

h θ (x) = 1 1 + e - θ T x

$h_{\theta}(x)=\frac{1}{1+e^{-\theta^{T}x}}$

逻辑回归(LR)的 $P(y=1|x)=\frac{1}{1+e^{-\theta^{T}x}}$ ，它即是在伯努利分布和广义线性模型的假设下推导而来，逻辑回归也自然是一种广义线性模型。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。