机器学习——线性回归
本文主要是对 线性回归中的部分公式进行推导以及个人对该问题的理解,具体的理论知识可以参考 吴恩达 的《机器学习》 视频。
1. 符号以及定义
- 样本矩阵 X = [ x 1 , x 2 , ⋯ , x n ] T ∈ R n × d X = [x_1,x_2,\cdots,x_n]^T \in R^{ n\times d} X=[x1,x2,⋯,xn]T∈Rn×d , x i x_i xi 表示第 i 个样本。其中每一行是一个样本,每一列表示一个特征,也可以说是一个影响因素。
- 标签矩阵 Y = [ y 1 , y 2 , ⋯ , y n ] T ∈ { 0 , 1 } n Y = [y_1,y_2,\cdots,y_n]^T \in \{0,1\}^ n Y=[y1,y2,⋯,yn]T∈{ 0,1}n
- 权重向量 θ ∈ R d \theta \in R^d θ∈Rd
2. 公式以及推导
2.1 假设函数
H θ ( x i ) = x i θ = x i 0 θ 0 + x i 1 θ 1 + x i 2 θ 2 + ⋯ + x i d θ d (1) \begin{array}{l}H_{\theta}(x_i)= x_i\theta \tag{1} \\ = x_{i0}\theta_0 + x_{i1}\theta_1+ x_{i2}\theta_2+ \cdots+ x_{id}\theta_d\end{array} Hθ(xi)=xiθ=xi0θ0+xi1θ1+xi2θ2+⋯+xidθd(1)
- 等式1的含义: 假设 影响因素 与 预测值之间存在线性关系,其中系数为 θ \theta θ, 偏差项为 b b b.
- x i j x_{ij} xij: 表示 第 i个样本中的第 j 个影响因素。
- 通过(1)的展开式可以看出, θ j \theta_j θj 表示的第 j个影响因素的重要程度。
2.2 代价函数
代价函数的理解:
由于我们以及在 2.1 中假设了 影响因素 与 预测值之间存在 H θ ( x i ) H_\theta(x_i)