1、Logistic回归:
1.1、逻辑回归数据集
1.2、 样本发生的概率,即y取1的概率:
1.3、整个样本的似然函数为:
- 似然函数
L=∏hθ(x(i))y(i)(1−hθ(x(i)))1−y(i) L = ∏ h θ ( x ( i ) ) y ( i ) ( 1 − h θ ( x ( i ) ) ) 1 − y ( i ) - 对数似然函数为:
logL=∑i=1m(y(i)log(hθ(x(i))+(1−y(i))log(1−hθ(x(i)))) l o g L = ∑ i = 1 m ( y ( i ) l o g ( h θ ( x ( i ) ) + ( 1 − y ( i ) ) l o g ( 1 − h θ ( x ( i ) ) ) )
1.4、代价函数,及代价函数偏导:
- 代价函数
J(θ)=−1m∑i=1m(y(i)log(hθ(x(i))+(1−y(i))log(1−hθ(x(i)))) J ( θ ) = − 1 m ∑ i = 1 m ( y ( i ) l o g ( h θ ( x ( i ) ) + ( 1 − y ( i ) ) l o g ( 1 − h θ ( x ( i ) ) ) ) - 代价函数的偏导数:
∂J(θ)∂θj=−1m(∑i=1m(y(i)−hθ(x(i)))x(i)) ∂ J ( θ ) ∂ θ j = − 1 m ( ∑ i = 1 m ( y ( i ) − h θ ( x ( i ) ) ) x ( i ) )
1.5、梯度下降更新参数:
1.6、对参数L2正则化
-
对于逻辑回归,L2正则化之后,损失函数为
对
于
逻
辑
回
归
,
L
2
正
则
化
之
后
,
损
失
函
数
为
:
J(θ)=−1m(∑i=1m(y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))))+λ2m∑j=1nθ2 J ( θ ) = − 1 m ( ∑ i = 1 m ( y ( i ) l o g ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) l o g ( 1 − h θ ( x ( i ) ) ) ) + λ 2 m ∑ j = 1 n θ 2 -
θ迭代更新公式为
θ
迭
代
更
新
公
式
为
θj:=θj+αm(∑i=1m(y(i)−hθ(x(i))x(i)j)−αλmθj(j=1,...,n) θ j := θ j + α m ( ∑ i = 1 m ( y ( i ) − h θ ( x ( i ) ) x j ( i ) ) − α λ m θ j ( j = 1 , . . . , n )
θj为每列x对应的参数,为一个数 θ j 为 每 列 x 对 应 的 参 数 , 为 一 个 数
2、softmax回归:
2.1、softmax回归数据集
x(m)表示x的一行数据,可能包含多列,是一个向量 x ( m ) 表 示 x 的 一 行 数 据 , 可 能 包 含 多 列 , 是 一 个 向 量
2.2、softmax概率函数
θ为一个k×(n+1)的矩阵 θ 为 一 个 k × ( n + 1 ) 的 矩 阵
θ=⎡⎣⎢⎢⎢⎢⎢θT1θT2⋮θTk⎤⎦⎥⎥⎥⎥⎥ θ = [ θ 1 T θ 2 T ⋮ θ k T ]
2.3、softmax回归的损失函数为:
- 损失函数的矩阵形式为:
Jθ=−1msum(Y⊙ logP) J θ = − 1 m s u m ( Y ⊙ l o g P ) - 对Y相应的解释
y=⎡⎣⎢⎢⎢⎢⎢1100k⎤⎦⎥⎥⎥⎥⎥ y = [ 1 1 0 0 k ]
对应Y为
Y=⎡⎣⎢⎢⎢⎢⎢0011011000⋯⋯⋯⋯⋯00001⎤⎦⎥⎥⎥⎥⎥ Y = [ 0 1 ⋯ 0 0 1 ⋯ 0 1 0 ⋯ 0 1 0 ⋯ 0 0 0 ⋯ 1 ]
y=k 则第k列数字对应1,其余列为0.
2.4、softmax回归损失函数的偏导为:
- 矩阵形式为:
▽θJ(θ)=−1m(Y−P)TX ▽ θ J ( θ ) = − 1 m ( Y − P ) T X
(Y−P)维度为m×k,X为m×(n+1) ( Y − P ) 维 度 为 m × k , X 为 m × ( n + 1 )
2.5、对参数正则化处理
- 损失函数:
J(θ)=−1m[∑i=1m∑j=1k1{y(i)=j}logexp(θTjx(i))∑kl=1exp(θTlx(i))]+λ2∑j=1k∑b=0nθ2jb J ( θ ) = − 1 m [ ∑ i = 1 m ∑ j = 1 k 1 { y ( i ) = j } l o g e x p ( θ j T x ( i ) ) ∑ l = 1 k e x p ( θ l T x ( i ) ) ] + λ 2 ∑ j = 1 k ∑ b = 0 n θ j b 2 - 损失函数关于 θj θ j 的偏导为:
2.6、更新参数
θj为一个向量 θ j 为 一 个 向 量
矩阵更新:
θ θ 为一个矩阵