1. 线性回归
f ( x ) = w T x + b f(x) = w^Tx + b f(x)=wTx+b
消灭常数项
f ( x ) = w T x f(x) = w^Tx f(x)=wTx
2. 逻辑回归模型函数
σ ( x ) = 1 1 + e − x \sigma(x) = \frac{1}{1 + e^{-x}} σ(x)=1+e−x1
y = σ ( f ( x ) ) = σ ( w T x ) = 1 1 + e − w T x y = \sigma(f(x)) = \sigma(w^Tx) = \frac{1}{1 + e^{-w^Tx}} y=σ(f(x))=σ(wTx)=1+e−wTx1
3. 逻辑回归损失函数
P y = 1 = 1 1 + e − w T x = p P_{y=1} = \frac{1}{1 + e^{-w^Tx}} = p Py=1=1+e−wTx1=p
P
(
y
∣
x
)
=
{
p
,
y
=
1
1
−
p
,
y
=
0
P(y|x) = \begin{cases} p, y=1 \\ 1-p,y=0 \end{cases}
P(y∣x)={p,y=11−p,y=0
等价于
P
(
y
i
∣
x
i
)
=
p
y
i
(
1
−
p
)
1
−
y
i
P(y_i|x_i) = p^{y_i}(1-p)^{1-y^i}
P(yi∣xi)=pyi(1−p)1−yi
有N组数据
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
(
x
3
,
y
3
)
,
(
x
4
,
y
4
)
.
.
.
.
.
.
(
x
N
,
y
N
)
{(x_1,y_1), (x_2,y_2), (x_3,y_3),(x_4,y_4)......(x_N,y_N)}
(x1,y1),(x2,y2),(x3,y3),(x4,y4)......(xN,yN),合在一起的合事件的概率
P 总 = P ( y 1 ∣ x 1 ) P ( y 2 ∣ x 2 ) P ( y 3 ∣ x 3 ) . . . . . . P ( y N ∣ x N ) = ∏ n = 1 N p y n ( 1 − p ) 1 − y n P_{总}=P(y_1|x_1)P(y_2|x_2)P(y_3|x_3)......P(y_N|x_N)\\ =\prod_{n=1}^{N}p^{y_n}(1-p)^{1-y_n} P总=P(y1∣x1)P(y2∣x2)P(y3∣x3)......P(yN∣xN)=n=1∏Npyn(1−p)1−yn
F ( w ) = l n ( P 总 ) = l n ( ∏ n = 1 N p y n ( 1 − p ) 1 − y n ) = ∑ n = 1 N l n ( p y n ( 1 − p ) 1 − y n ) = ∑ n = 1 N ( y n l n ( p ) + ( 1 − y n ) l n ( 1 − p ) ) F(w) = ln(P_{总}) = ln(\prod_{n=1}^{N}p^{y_n}(1-p)^{1-y_n}) \\ = \sum_{n=1}^{N}ln(p^{y_n}(1-p)^{1-y_n}) \\ = \sum_{n=1}^{N}(y_nln(p)+(1-y_n)ln(1-p)) F(w)=ln(P总)=ln(n=1∏Npyn(1−p)1−yn)=n=1∑Nln(pyn(1−p)1−yn)=n=1∑N(ynln(p)+(1−yn)ln(1−p))
损失函数是当前模型的输出结果跟实际输出结果之间的差距。这里的损失函数值的等于事件发生的总概率。我们期待损失函数的值最大。
4. 最大似然估计
F ( w ) F(w) F(w) 正比于 P 总 P_总 P总, F ( w ) F(w) F(w) 只有一个变量 w w w,改变 w w w 的值可以得到不同的 P 总 P_总 P总,当我们选取的 w ∗ w^* w∗ 刚好使 P 总 P_总 P总最大,
就求到了
w
w
w的值
w
∗
w^*
w∗。
w
∗
=
arg
max
w
F
(
w
)
=
−
arg
min
w
F
(
x
)
w^* = \arg\max_{w}F(w) = -\arg\min_{w}F(x)
w∗=argwmaxF(w)=−argwminF(x)
5. 梯度推导
p ′ = p ( 1 − p ) x p^{'} =p(1-p)x p′=p(1−p)x
( 1 − p ) ′ = − p ( 1 − p ) x (1-p)^{'} = -p(1-p)x (1−p)′=−p(1−p)x
Δ F ( w ) = ∑ n = 1 N ( y n − p ) x n = ∑ n = 1 N ( y n − 1 1 + e − w T x n ) x n \Delta F(w) = \sum_{n=1}^{N}(y_n-p)x_n \\ = \sum_{n=1}^{N}(y_n-\frac{1}{1 + e^{-w^Tx_{n}}})x_n ΔF(w)=n=1∑N(yn−p)xn=n=1∑N(yn−1+e−wTxn1)xn
6. 梯度下降
w t + 1 = w t + η Δ F ( w ) w_{t+1} = w_t + \eta\Delta F(w) wt+1=wt+ηΔF(w)
η \eta η为步长,学习率。
逻辑回归的损失函数是连续凸函数,只有一个全局最优点。
梯度下降使用可所有的样本点。所有的样本都参与梯度计算。
7. 随机梯度下降
随机梯度下降选择随机选择一个样本,用于代表整体,然后乘以N
w
t
+
1
=
w
t
+
η
N
(
y
i
−
1
1
+
e
−
w
T
x
i
)
w_{t+1} = w_t + \eta N(y_i - \frac{1}{1 + e^{-w^Tx_i}})
wt+1=wt+ηN(yi−1+e−wTxi1)
把
η
\eta
η 和 N 合并
w
t
+
1
=
w
t
+
η
(
y
i
−
1
1
+
e
−
w
T
x
i
)
w_{t+1} = w_t + \eta (y_i - \frac{1}{1 + e^{-w^Tx_i}})
wt+1=wt+η(yi−1+e−wTxi1)