往期回顾:
00——机器学习数学基础以及数值计算数值优化方法
01——机器学习基本概念、统计学基本概念简单介绍
在学习深度学习之前,再学习一下基本的机器学习算法。首先从logistic回归开始,再说一说sigmoid的推导等。
一、逻辑回归/logistic回归模型的简单介绍
1. logistic分布
设 X X X是连续随机变量, X X X服从logistic分布是指 X X X具有下列分布函数和密度函数:
F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ f ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 F(x)=P(X\leq x)=\dfrac {1}{1+e^{-(x-\mu)/\gamma} }\\ ~\\ f(x)=\dfrac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} F(x)=P(X≤x)=1+e−(x−μ)/γ1 f(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ
其中 μ \mu μ为位置参数, γ > 0 \gamma > 0 γ>0为形状参数。
2. 二项逻辑回归模型
- 几率:事件发生的概率与该事件不发生的概率的比值。而对数几率就是取对数
对于二分类问题,类别 Y Y Y只有1或0。如果我们认为事件 Y Y Y发生的对数几率正比于随机变量 X X X,即:
log P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x \log \dfrac{P(Y=1|x)}{1-P(Y=1|x)}=w \cdot x log1−P(Y=1∣x)P(Y=1∣x)=w⋅x
那么便得出
P ( Y = 1 ∣ x ) = exp ( w ⋅ x ) 1 + exp ( w ⋅ x ) P(Y=1|x)=\dfrac {\exp {(w\cdot x)}}{1+\exp{(w\cdot x)} } P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)
加入偏置项b,得二项逻辑回归模型:
P ( Y = 1 ∣ x ) = exp ( w ⋅ x + b ) 1 + exp ( w ⋅ x + b ) P(Y=1|x)=\dfrac {\exp {(w\cdot x+b)}}{1+\exp{(w\cdot x+b)} } P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)
P ( Y = 0 ∣ x ) = 1 − P ( Y = 1 ∣ x ) P(Y=0|x)=1-P(Y=1|x) P(Y=0∣x)=1−P(Y=1∣x)
3. 模型参数估计
逻辑回归学习时,对于给定的训练数据集,可以应用极大似然估计。
对数似然函数为:
设 P ( Y = 1 ∣ x ) = π ( x ) L ( w ) = ∑ i = 1 N [ y i log π ( x i ) + ( 1 − y i ) log ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( w ⋅ x i ) − log ( 1 + exp ( w ⋅ x i ) ] 设P(Y=1|x)=\pi(x)\\L(w)=\sum^N_{i=1}[y_i\log \pi (x_i)+(1-y_i)\log(1-\pi (x_i))]\\=\sum^N_{i=1}[y_i(w\cdot x_i)-\log (1+\exp(w\cdot x_i)] 设P(Y=1∣x)=π(x)L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]=i=1∑N[yi(w⋅xi)−log(1+exp(w⋅xi)]
求出似然函数的极大值即可得到 w w w的估计值。
4. 多项逻辑回归
与二项类似,K项模型是:
P ( Y = k ∣ x ) = exp ( w k ⋅ x + b ) 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x + b ) , k = 1 , 2 , … , K − 1 P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x + b ) P(Y=k|x)=\dfrac {\exp {(w_k\cdot x+b)}}{1+\sum^{K-1}_{k=1}\exp{(w_k\cdot x+b)} },~~k=1,2,\dots,K-1\\~ \\P(Y=K|x)=\dfrac {1}{1+\sum^{K-1}_{k=1}\exp{(w_k\cdot x+b)} } P(Y=k∣x)=