假设函数表示
y ∈ {0, 1},因变量y只有0,1两种取值,
为此改变假设函数的形式,使假设函数
hθ(x)
h
θ
(
x
)
满足
0≤hθ(x)≤1
0
≤
h
θ
(
x
)
≤
1
hθ(x)=g(θTx)z=θTxg(z)=11+e−z h θ ( x ) = g ( θ T x ) z = θ T x g ( z ) = 1 1 + e − z
得到假设函数:
称为逻辑函数(Logistic Function)或者S型函数(Sigmoid Function)
对于样本x, hθ(x) h θ ( x ) 给出输出值为1的概率,即 P(y=1|x;θ) P ( y = 1 | x ; θ )
决策边界
为了得到离散的0和1的两个分类,我们将假设函数做以下转化
即当假设函数值大于等于0.5时,预测y=1;小于0.5时,预测y=0.
有
决策边界就是区分预测y=1的区域和y=0的区域的曲线,它是假设函数的属性,与数据集无关。
曲线 θTx=0 θ T x = 0 即决策边界。
代价函数
逻辑回归的代价函数:
y=1, ,y=0,
完整的代价函数
向量表示
梯度下降
Repeat{θj:=θj−α∂∂θjJ(θ)} R e p e a t { θ j := θ j − α ∂ ∂ θ j J ( θ ) }
Repeat{θj:=θj−αm∑i=1m(hθ(x(i))−y(i))x(i)j} R e p e a t { θ j := θ j − α m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) }
向量运算实现:
θ:=θ−αmXT(g(Xθ)−y⃗ )
θ
:=
θ
−
α
m
X
T
(
g
(
X
θ
)
−
y
→
)
梯度运算的推导:
2到3步:
多类别分类
选择一个类别,将其余的类别都划为第二类,由此得到一个分类器,以此类推,对n个类别获得n个分类器
y∈{0,1...n}h(0)θ(x)=P(y=0|x;θ)h(1)θ(x)=P(y=1|x;θ)⋯h(n)θ(x)=P(y=n|x;θ)prediction=maxi(h(i)θ(x))
y
∈
{
0
,
1
.
.
.
n
}
h
θ
(
0
)
(
x
)
=
P
(
y
=
0
|
x
;
θ
)
h
θ
(
1
)
(
x
)
=
P
(
y
=
1
|
x
;
θ
)
⋯
h
θ
(
n
)
(
x
)
=
P
(
y
=
n
|
x
;
θ
)
p
r
e
d
i
c
t
i
o
n
=
max
i
(
h
θ
(
i
)
(
x
)
)
预测值取各个分类器结果中最大值,即为预测结果。