一、线性回归(一元)
h θ ( x ) = θ T x = θ 0 + θ 1 x h_{\theta}(x) = \theta^Tx = \theta_0 + \theta_1x hθ(x)=θTx=θ0+θ1x
截距 θ 0 \theta_0 θ0 和斜率 θ 1 \theta_1 θ1 决定一条直线。
1. 成本函数
线性回归的损失函数采用最小二乘法:以估计值与观测值的平方和作为成本函数
J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta_0,\theta1) = \frac{1}{2m}\sum^m_{i = 1}(h_{\theta}(x^{(i)})-y^{(i)})^2 J(θ0,θ1)=2m1i=1∑m(hθ(x(i))−y(i))2
目标是找到使成本函数最小的 Θ \Theta Θ。
2. 最小化成本函数
2.1 梯度下降算法
θ j : = θ j − α ∂ ∂ θ j J ( θ 0 , θ 1 ) , j = 0 , 1 \theta_j := \theta_j - \alpha \frac{\partial}{\partial\theta_j}J(\theta_0,\theta1) , j = 0,1 θj:=θj−α∂θj∂J(θ0,θ1),j=0,1
其中 J J J为成本函数; α \alpha α 为学习率。
2.2 多变量梯度下降
θ j : = θ j − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) , j : = 0 … n , x 0 ( i ) = 1 \theta_j := \theta_j - \alpha\frac{1}{m}\sum^m_{i = 1}(h_{\theta}(x^{(i)})-y^{(i)})x^{(i)}_j ,j:=0…n, x^{(i)}_0 = 1 θj:=θj−αm1i=1∑m(hθ(x(i))−y(i))xj(i),j:=0…n,x0(i)=1
2.3 正态方程(不适合特征太多的情况)
θ = ( X T X ) − 1 X T y \theta = (X^TX)^{-1}X^Ty θ=(XTX)−1XTy
前提: X T X X^TX XTX 可逆;
不可逆的情况:特征过多 ( m ≤ n m \leq n m≤n) 或者存在冗余要素(变量之间存在线性相关)。
二、逻辑回归 (Logistic Regression)
g ( z ) = 1 1 + e − z , z = θ T x , h θ ( x ) = g ( θ T x ) g(z) = \frac{1}{1+e^{-z}},\ \ z = \theta^Tx \ ,h_{\theta}(x) = g(\theta^Tx) g(z)=1+e−z1, z=θTx ,hθ(x)=g(θTx)
其中 h θ ( x ) h_{\theta}(x) hθ(x) 计算输出为1的概率。
1. 成本函数
- 如果采用类似线性函数的误差平方和表示成本函数:
J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 = 1 2 m ∑ i = 1 m ( 1 1 + e − Θ T x ( i )