前言
邏輯回歸的公式中有使用到sigmoid函數,為何仍說邏輯回歸是線性模型呢?
本篇會從數學的角度來看邏輯回歸模型。我們在最後會發現,這跟邏輯回歸模型的決策邊界有關。
邏輯回歸簡介
雖然在邏輯回歸這個稱呼中有回歸兩字,但邏輯回歸其實並不是一個回歸模型,而是一個二分類的模型。它的數學公式十分簡單,先將輸入項與權重做內積,接著套上sigmoid函數,便會得到一個介於0與1之間的值。我們通常會設一個閾值,如0.5,將小於這個閾值的分做一類,大於這個閾值的分作另外一類。
邏輯回歸的決策邊界
首先給出邏輯回歸的數學公式:
z
=
w
T
x
+
b
z = w^Tx+b
z=wTx+b
a
=
s
i
g
m
o
i
d
(
z
)
=
σ
(
z
)
=
1
(
1
+
e
−
z
)
a=sigmoid(z)=\sigma(z)=\frac{1}{(1+e^{-z})}
a=sigmoid(z)=σ(z)=(1+e−z)1
邏輯回歸是以閾值0.5來將數據分成兩類,從下面這張圖來看,可以將上句等價地描述為"邏輯回歸是觀察z值,以0為閾值將數據分成兩類",亦即,模型的決策邊界是在z為0處。到了這一步,我們便己經將非線性的成份給排除了。
我們繼續來看在輸入特徵空間中,決策邊界究竟是何種形狀。首先從最簡單的例子看起,也就是x即單變量的情形。在這種情況下,我們可以令 w x + b = 0 wx+b=0 wx+b=0,由此計算出在輸入特徵空間的決策邊界為 x = − b w x=-\frac{b}w x=−wb。意即在x是單變量時,決策邊界是一條線。
在x是多變量的時候,我們也可以用同樣的方法來找出決策邊界為
w
T
x
=
−
b
w^{T}x=-b
wTx=−b,而這在高維空間的表現便是所謂的超平面。
由於在x為單變量或多變量的情形下,邏輯回歸的決策邊界皆是線性的,因此我們才說邏輯回歸是線性模型。
參考連結
其它邏輯回歸的文章:
為何說L1正則化會使得權重變得稀疏?
為何邏輯回歸的損失函數是用交叉熵而非均方誤差?
為何說邏輯回歸是線性模型?
為何邏輯回歸可以使用0來初始化,而神經網路不行?