1、伯努利分布
伯努利分布(英语:Bernoulli distribution,又名两点分布或者0-1分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。)若伯努利试验成功,则伯努利随机变量取值为1。若伯努利试验失败,则伯努利随机变量取值为0。记其成功概率为 p(0≤p≤1),失败概率为q=1−p 则
其概率密度函数为:
fX(x)=px(1−p)1−x=⎧⎩⎨⎪⎪pif x=1,q=1−pif x=0,0otherwise(1.1)其期望值为
E(X)=∑i=01xifX(x)=0∗q+1∗p=p(1.2)- 其方差为
var(X)=∑i=01(xi−E(x))2fX(x)=(0−p)2∗(1−p)+(1−p)2∗p=pq(1.3)
2、二项分布
二项分布为进行n次独立伯努利试验中成功的次数的离散概率分布。
2.1概率密度和累计概率密度
一般地,如果随机变量X服从参数为n和p的二项分布,我们记X∼b(n,p)或X∼B(n,p) :
n次试验中正好得到k次成功的概率由概率质量函数:
f(k;n,p)=Pr(K=k)=(nk)pk(1−p)n−k=C(n,k)pk(1−p)n−k=n!k!(n−k)!pk(1−p)n−k累积概率密度函数为:
F(x;n,p)=Pr(X<x)=∑i=0⌊x⌋(ni)pi(1−p)n−i
2.2、期望和方差
- 期望为:
- E(X)=np
- 方差为:
- var(X)=np(1−p)
3、指数族分布
3.1、指数族通式
指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布:
其中η是natural parameter,T(y)是充分统计量,exp−a(η)起到归一化作用。
3.2、伯努利分布的指数形式
令伯努利分布的随机变量为y,发生的概率为p
y | 1 | 0 |
---|---|---|
p | ϕ | 1−ϕ |
则概率密度为:
把伯努利分布写成指数族分布形式则:
4、广义线性模型
4.1、广义线性模型假设条件
考虑一个分类或回归问题,我们就是想预测某个随机变量y,y是某些特征(feature)x的函数。为了推导广义线性模式,我们必须做出如下三个假设:
- p(y|x;θ)服从指数族分布
- 给了x,我们为了预测T(y)=y在条件x下的期望,即E[T(y)|x]。通常情况下,T(y)=y,因此hθ(x)=E[y|x] .
- 参数η 和输入x是线性相关的:η=θTx .
4.2 逻辑回归
考虑LR二分类问题,y∈0,1,因为是二分类问题,我们很自然的选择p(y|x;θ) Bernoulli(ϕ),即服从伯努利分布。那么
因为伯努利分布期望性质,
并根据公式3.2.3可得:
根据假设3 η=θTx,并联合4.2.1,4.2.2,4.2.3得:
逻辑回归(LR)的 P(y=1|x)=11+e−θTx ,它即是在伯努利分布和广义线性模型的假设下推导而来,逻辑回归也自然是一种广义线性模型。