机器学习-吴恩达网易云课堂笔记

最新推荐文章于 2021-01-25 16:53:35 发布

Grin*

最新推荐文章于 2021-01-25 16:53:35 发布

阅读量420

点赞数

分类专栏： ML--Andrew Y.Ng 文章标签：机器学习吴恩达 matlab

本文链接：https://blog.csdn.net/gpx33333/article/details/97550349

版权

ML--Andrew Y.Ng 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习-吴恩达网易云课堂笔记

Machine Learning: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measure by P, improves with experience E.
Supervised learning, Unsupervised learning; Regression, Classification.
Linear regression
- Hypothesis function : $h_\theta(x) = \theta_0 + \theta_1x$
- Cost function : $J(\theta_0,\theta_1) = \frac{1}{2m}\sum_{i = 1}^{m}(h_\theta(x^{(i)}) - y^{(i)})^2$ (Squared error function)
- Goal : $\underset{\theta_0, \theta_1}{minimize} J(\theta_0, \theta_1)$
Gradient descent
- 用于最小化代价函数。这里以上述线性回归为例子描述该方法具体流程。
- 算法过程
  $repeat\ until\ convergence \ \{ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \ \\ \theta_j := \theta_j - \alpha\frac{\partial }{\partial \theta_j}J(\theta_0, \theta_1) \quad (for \ j = 0 \ and \ j = 1) \quad \quad \quad \\ \} \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad\quad \quad \quad \quad \quad \quad \quad \quad \quad \quad$
  其中 $\alpha$ 称为学习率， $\alpha$ 越大代表梯度下降的越快， $\alpha$ 越小代表梯度下降的越慢。
  
  如果 $\alpha$ 太小的话梯度下降的会比较慢， $\alpha$ 太大的话梯度下降可能会越过最低点甚至无法收敛或者发散。
  
  注： $\theta_0$ 和 $\theta_1$ 需要同时更新，更新方式如下：
  $\theta_0 - \alpha\frac{\partial }{\partial \theta_0}J(\theta_0, \theta_1)\\ temp1 := \theta_1 - \alpha\frac{\partial }{\partial \theta_1}J(\theta_0, \theta_1)\\ \theta_0 := temp0\\ \theta_1 := temp1$
- Gradient descent for linear regression
  $:\ \frac{\partial }{\partial \theta_0}J(\theta_0, \theta_1) = \frac{1}{m}\sum_{i = 1}^{m}(h_\theta(x^{(i)}) - y^{(i)}) \quad \ \ \\ j = 1 :\ \frac{\partial }{\partial \theta_1}J(\theta_0, \theta_1) = \frac{1}{m}\sum_{i = 1}^{m}(h_\theta(x^{(i)}) - y^{(i)}) x^{(i)}$
- 这种梯度下降算法也称为Batch Gradient descent, “Batch” : Each step of gradient descent uses all the training examples.
- 梯度下降法的缺点：需要选择 $\alpha$ ；需要多次迭代。
Linear regression with multiple variables
- Hypothesis function : $h_\theta(x) = \theta^Tx = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n$
- Cost function : $J(\theta_0,\theta_1,\cdots ,\theta_n) = \frac{1}{2m}\sum_{i = 1}^{m}(h_\theta(x^{(i)}) - y^{(i)})^2$
- Goal : $\underset{\theta_0, \theta_1, \cdots ,\theta_n}{minimize} J(\theta_0, \theta_1, \cdots ,\theta_n)$
- Gradient descent
  $repeat\ \{ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \ \\ \ \ \ \theta_j := \theta_j - \alpha\frac{\partial }{\partial \theta_j}J(\theta_0, \theta_1, \dots, \theta_n) \quad (simultaneously \ update \ for \ every \ j = 0, \dots, n) \\ \} \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad\quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \\ 其中\frac{\partial }{\partial \theta_ｊ}J(\theta_0, \theta_1, \dots, \theta_n) = \frac{1}{m}\sum_{i = 1}^{m}(h_\theta(x^{(i)}) - y^{(i)}) x_j^{(i)} \quad \quad \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$
- 特征缩放(feature scaling)，当不同的特征取值范围相差很大时，可以进行特征缩放，使所有的特征取值范围大致相同，这样可以加快梯度下降的速度。常用**均值归一化(mean normalization)**来进行特征缩放。
- 正规方程法(normal equation)，求解可得 $\theta = (X^TX)^{-1}X^Ty$ 。注：由于需要计算 $X^TX)^{-1}$ ，故当特征数很多的时候运行的非常慢。
Logistic regression
- 逻辑回归是一种分类算法。
- Hypothesis : $h_\theta(x) = g(\theta^Tx), \quad g(z) = \frac{1}{1 + e^{-z}}$ .
- predict “ $y = 1$ ” if $h_\theta(x) \geqslant 0.5$ ; predict “ $y = 0$ ” if $h_\theta(x) < 0.5$ .
- Cost function
  $J(\theta) = \frac{1}{m}\sum_{i = 1}^{m}Cost(h_\theta(x^{(i)}), y^{(i)}) \\ Cost(h_\theta(x), y) = \left\{ \begin{aligned} -log(h_\theta(x)) \quad if \ y = 1\\ -log(1 - h_\theta(x)) \quad if \ y = 0\\ \end{aligned} \right.$
  注：这里代价函数不用与线性回归一样的平方误差函数是因为 $\frac{1}{1 + e^{-z}}$ 是非线性函数，如果还用平方误差函数作为代价函数的话，会导致代价函数非凸，这样再用梯度下降法求解的话很容易陷入局部最优解。
  
  化简上述Cost等式，可得 $Cost(h_\theta(x), y) = -ylog(h_\theta(x)) - (1 - y)log(1 - h_\theta(x))$ ，那么 $J(\theta) = -\frac{1}{m}[\sum_{i = 1}^{m}(y^{(i)}log(h_\theta(x^{(i)})) + (1 - y^{(i)})log(1 - h_\theta(x^{(i)}))]$
- Gradient descent
  
  want $min_\theta J(\theta)$ :
  $repeat\ \{ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \ \\ \ \ \ \ \ \theta_j := \theta_j - \alpha\frac{\partial }{\partial \theta_j}J(\theta) \quad (simultaneously \ update \ all \ \theta_j) \quad\quad\quad\quad\quad\quad\quad\quad \\ \} \quad \quad\quad\quad\quad \quad \quad \quad \quad \quad \quad \quad \quad \quad\quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \\ 其中\frac{\partial }{\partial \theta_ｊ}J(\theta) = \frac{1}{m}\sum_{i = 1}^{m}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} \quad \quad \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$
Regularization
- 用于减少过拟合(overfitting)问题。
- 解决过拟合方法：减少特征数量；正则化。
- Regularized linear regression : $J(\theta) = \frac{1}{2m}[\sum_{i = 1}^m(h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda \sum_{j = 1}^n\theta_j^2]$
- Regularized logistic regression : $J(\theta) = -\frac{1}{m}[\sum_{i = 1}^{m}(y^{(i)}log(h_\theta(x^{(i)})) + (1 - y^{(i)})log(1 - h_\theta(x^{(i)})))] + \frac{\lambda}{2m}\sum_{j = 1}^n\theta_j^2$
Neural Network
- 神经元： $h_\theta(x) = g(\theta^Tx), \quad g(z) = \frac{1}{1 + e^{-z}}$
- 神经网络的基本模型
  
  前馈传播
  $a^{(2)}_1 = g(z_1^{(2)}), z_1^{(2)} = \Theta^{(1)}_{10}x_0 + \Theta^{(1)}_{11}x_1 + \Theta^{(1)}_{12}x_2 + \Theta^{(1)}_{13}x_3\\ a^{(2)}_2 = g(z_2^{(2)}), z_2^{(2)} = \Theta^{(1)}_{20}x_0 + \Theta^{(1)}_{21}x_1 + \Theta^{(1)}_{22}x_2 + \Theta^{(1)}_{23}x_3\\ a^{(2)}_3 = g(z_3^{(2)}), z_3^{(2)} = \Theta^{(1)}_{30}x_0 + \Theta^{(1)}_{31}x_1 + \Theta^{(1)}_{32}x_2 + \Theta^{(1)}_{33}x_3 \\ h_\Theta(x) = a^{(3)}_1 = g(\Theta^{(2)}_{10}a^{(2)}_0 +\Theta^{(2)}_{11}a^{(2)}_1 + \Theta^{(2)}_{12}a^{(2)}_2 + \Theta^{(2)}_{13}a^{(2)}_3) \\ 由x = \begin{bmatrix} x_0 \\ x_1 \\ x_2 \\ x_3 \end{bmatrix}，z^{(2)} = \begin{bmatrix} z_1^{(2)} \\ z_2^{(2)} \\ z_3^{(2)} \end{bmatrix} \quad 可得z^{(2)} = \Theta^{(1)}x, a^{(2)} = g(z^{(2)}) \quad 【向量化】$
- 为了更全面的理解神经网络模型，下面用一个稍微复杂一点的模型来举例。
  
  前馈传播【向量化】
  $a^{(1)} = x \quad\quad\quad\quad\quad\quad\quad \ \\ z^{(2)} = \Theta^{(1)}a^{(1)} \quad\quad\quad\quad\ \ \\ a^{(2)} = g(z^{(2)}) \quad (add \ a_0^{(2)}) \\ z^{(3)} = \Theta^{(2)}a^{(2)} \quad\quad\quad\quad\ \ \\ a^{(3)} = g(z^{(3)}) \quad (add \ a_0^{(3)}) \\ z^{(4)} = \Theta^{(3)}a^{(3)} \quad\quad\quad\quad\ \ \\ a^{(4)} = h_\Theta(x) = g(z^{(4)}) \quad$
- Cost funcstion
  
  假设进行多元分类，类别数为 $K$ 。
  $h_\Theta(x) \in \mathbb{R}^K \quad (h_\Theta(x))_i = i^{th} \ output \\ J(\Theta) = -\frac{1}{m}[\sum_{i = 1}^{m}\sum_{k = 1}^{K}(y_k^{(i)}log(h_\Theta(x^{(i)}))_k + (1 - y_k^{(i)})log(1 - (h_\Theta(x^{(i)}))_k))] + \frac{\lambda}{2m}\sum_{l = 1}^{L - 1}\sum_{i = 1}^{s_l}\sum_{j = 1}^{s_{l + 1}}(\Theta_{ji}^{(l)})^2 \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$
  其中 $L$ = total no. of layers in network, $s_l$ = no. of units (not counting bias unit) in layer $l$
- 反向传播(BP)算法
  - 注：主要来求解偏导数。
  - 预处理一些数值
    
    Intuition : $\delta_j^{(l)}$ = “error” of node $j$ in layer $l$ .
    
    For each output unit (layer L = 4)
    
    $\delta^{(4)} = a^{(4)} - y$
    
    $\delta^{(3)} = (\Theta^{(3)})^T\delta^{(4)}.*g'(z^{(3)})$
    
    $\delta^{(2)} = (\Theta^{(2)})^T\delta^{(3)}.*g'(z^{(2)})$
    
    【可以证明 $\frac{\partial}{\partial \Theta_{ij}^{(l)}}J(\Theta) = a_j^{(l)}\delta_i^{(l + 1)}$ , 忽略正则化的情况下】
  - 下面是反向传播算法(Backpropagation algorithm)的具体步骤：
    
    Training set { $(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})$ }
    
    Set $\Delta_{ij}^{(l)} = 0$ (for all $l, i, j$ )
    
    For $i = 1$ to $m$
    
    $\quad$ Set $a^{(1)} = x$
    
    $\quad$ Peform forward propagation to compute $a^{(l)}$ for $\dots, L$
    
    $\quad$ Using $y^{(i)}$ , compute $\delta^{(L)} = a^{(L)} - y^{(i)}$
    
    $\quad$ Compute $\delta^{(L - 1)}, \delta^{L - 2}, \dots, \delta^2$
    
    $\quad$ $\Delta_{ij}^{(l)} := \Delta_{ij}^{(l)} + a_j^{(l)}\delta_i^{(l + 1)}$ 【向量化表示： $\Delta^{(l)} := \Delta^{(l)} +\delta^{(l + 1)}(a^{(l)})^T$ 】
    
    $D_{ij}^{(l)} := \frac{1}{m}\Delta_{ij}^{(l)} + \lambda\Theta_{ij}^{(l)} \quad if \ j =\not 0$
    
    $D_{ij}^{(l)} := \frac{1}{m}\Delta_{ij}^{(l)} \quad\quad \quad \ \ \quad if \ j = 0$
    
    最后可得 $\frac{\partial}{\partial \Theta_{ij}^{(l)}}J(\Theta) = D_{ij}^{(l)}$
    
    求得偏导之后可继续使用梯度下降法或其他高级优化算法。
- 梯度检验(Gradient checking), 利用 $\frac{d}{d\theta}J(\theta) \approx \frac{J(\theta + \epsilon) - J(\theta - \epsilon)}{2\epsilon}$ 来近似计算导数，验证所求得的导数是否正确，进而验证前馈传播算法和反向传播算法计算是否正确。
- 最后，总结一下运用神经网络算法的步骤：
  - Randomly initialize weights (注意一定不能全部初始化为0)
  - Implement forward propagation to get $h_\Theta(x^{(i)})$ for any $x^{(i)}$
  - Implement code to compute cost function $J(\Theta)$
  - Implement backprop to compute partial derivatives $\frac{\partial}{\partial \Theta_{jk}^{(l)}}J(\Theta)$
  - Use gradient checking to compare $\frac{\partial}{\partial \Theta_{jk}^{(l)}}J(\Theta)$ computed using backpropagation vs. using numerical estimate of gradient of $J(\Theta)$ .
    
    Then disable gradient checking code
  - Use gradient descent or advanced optimization method with backpropagation to try to minimize $J(\Theta)$ as a function of parameters $\Theta$
应用机器学习的建议
- 按照6:2:2的比例将所有数据分为训练集、交叉验证集和测试集，用训练集来训练模型，用交叉验证集来选择交叉验证误差最小的模型，用测试集来估计模型的泛化误差。
- 高偏差(high bias)－>欠拟合(underfitting)：训练误差和交叉验证误差都很大；
  
  高方差(high variance)－>过拟合(overfitting)：训练误差小，交叉验证误差大。
- 正则化项参数 $\lambda$ 小的时候，容易过拟合；正则化项参数 $\lambda$ 大的时候，容易欠拟合。
- 学习曲线(learning curves)：训练样本数量为自变量，误差为因变量。训练误差随着训练样本的增大而增大；交叉验证误差随着训练样本的增大而减小【正常情况】。
  
  高偏差(欠拟合)情况：交叉验证误差随着训练样本的增加先减小后不变；训练误差随着训练样本的增加先增加后不变，最后与交叉验证误差非常接近【原因：参数太少，拟合情况不好，导致误差很大】。因此在欠拟合情况下增加训练样本对改进算法没有太大帮助。
  
  高方差(过拟合)情况：训练误差随着训练样本的增加会增加一点，但不会变得很大；交叉验证误差会随着训练样本的增加而减少一点，但还是会非常大【特点：训练误差与交叉验证误差之间有很大的距离，交叉验证误差还有很大的下降空间】。因此在过拟合情况下增加训练样本有助于改进算法。
- 改进学习算法
  
  高方差问题：获得更多的训练样本；减少特征数量；增大正则化项参数 $\lambda$ 。
  
  高偏差问题：选用更多的特征；增加多项式特征；减小正则化项参数 $\lambda$ 。
- 偏斜类(skewed classes)：正负样本数量差别很大。如果出现了偏斜类这种情况，就不能简单的用误差来评估模型的好坏了，所以引入了查准率和查全率。
  
  查准率(Precision)：真正例(TP) / (真正例(TP) + 假正例(FP))；
  
  召回率(Recall)：真正例(TP) / (真正例(TP) + 假反例(FN))。
  
  $F_1 Score : 2\frac{PR}{P + R}$ , 利用 $F_1$ 来度量模型的好坏。
SVM
- 支持向量机的cost function是根据逻辑回归改动得来的，与逻辑回归的cost function类似。
- 优化目标： $\underset{\theta}{min}C\sum_{i = 1}^m[y^{(i)}cost_1(\theta^Tx^{(i)}) + (1 - y^{(i)})cost_0(\theta^Tx^{(i)})] + \frac{1}{2}\sum_{j = 1}^n\theta_j^2$
  
  其中 $cost_1(z)$ 的图像如左图所示， $cost_0(z)$ 的图像如右图所示
  
  理想的假设：If $y = 1$ , we want $\theta^Tx \ge 1$ (not just $\ge 0$ ); If $y = 0$ , we want $\theta^T x\le -1$ (not just < 0).
  
  如果优化目标中的系数 $C$ 非常大，那么优化目标的第一项就需要等于0，这时就需要上述"理想的假设"成立，那么优化目标就会变为
  $\underset{\theta}{min} \ \frac{1}{2}\sum_{j = 1}^n\theta_j^2 = \frac{1}{2}||\theta||^2 \quad \quad \quad \\ s.t. \quad \theta^Tx^{(i)} \ge 1 \quad if \ y^{(i)} = 1 \\ \quad \quad \quad \ \ \theta^Tx^{(i)} \le -1 \quad if \ y^{(i)} = 0 \ \$
- 核函数(kernel)：通过特征点和核函数（常用高斯核函数）来定义新的特征变量，从而训练复杂的非线性模型。
  
  高斯核函数： $exp(-\frac{||x - l||^2}{2\delta^2})$
  
  举个简单的例子：
  
  Given $(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})$ ,
  
  choose $l^{(1)} = x^{(1)}, l^{(2)} = x^{(2)}, \dots, l^{(m)} = x^{(m)}$ . 【特征点】
  $\begin{bmatrix} f_0 \\ f_1 \\ f_2 \\ \dots \\ f_m \end{bmatrix} \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$
  For training example $x^{(i)}, y^{(i)}$ 【similarity函数常用高斯核函数】
  
  $\quad$ $f_1^{(i)} = similarity(x^{(i)}, l^{(1)})$
  
  $\quad$ $f_2^{(i)} = similarity(x^{(i)}, l^{(2)})$
  
  $\quad$ $\dots$
  
  $\quad$ $f_m^{(i)} = similarity(x^{(i)}, l^{(m)})$
  
  Hypothesis : Given $x$ , compute features $\in \mathbb{R}^{m + 1}$
  
  $\quad$ Predict “y = 1” if $\theta^Tf \ge 0$
  
  Training : $\underset{\theta}{min}C\sum_{i = 1}^m[y^{(i)}cost_1(\theta^Tf^{(i)}) + (1 - y^{(i)})cost_0(\theta^Tf^{(i)})] + \frac{1}{2}\sum_{j = 1}^m\theta_j^2$
- Large C : Lower bias, higher variance; Small C : Higher bias, lower variance.
- Large $\delta^2$ : Featuers $f_i$ vary more smoothly. Higher bias, lower variance;
  
  Small $\delta^2$ : Featuers $f_i$ vary less smoothly. Lower bias, higher variance.
K-means
- Input : - $K$ (number of clusters)
  
  $\quad \quad$ - Training set { $x^{(1)}, x^{(2)}, \dots, x^{(m)}$ } , $x^{(i)} \in \mathbb{R}^n$
  
  Randomly initialize $K$ cluster centroids $\mu_1, \mu_2, \dots, \mu_K \in\mathbb{R}^n$
  
  Repeat {
  
  $\quad$ for $i = 1$ to $m$
  
  $\quad$ $\quad$ $c^{(i)}$ := index (from 1 to $K$ ) of cluster centroid closest to $x^{(i)}$
  
  $\quad$ for $k = 1$ to $K$
  
  $\quad$ $\quad$ $\mu_k$ := average (mean) of points assigned to cluster $k$
  
  }
- Optimization objective :
  
  $\quad$ $J(c^{(1)}, \dots, c^{(m)},\mu_1, \dots, \mu_K) = \frac{1}{m}\sum_{i = 1}^m||x^{(i)} - \mu_{c^{(i)}}||^2$
  
  $\quad$ $\underset{c^{(1)}, \dots, c^{(m)}, \\ \mu_1, \dots, \mu_K}{min} J(c^{(1)}, \dots, c^{(m)},\mu_1, \dots, \mu_K)$
  
  其中 $c^{(i)}$ = index of cluster ( $1, 2, . . ., K$ ) to which example $x^{(i)}$ is currently assigned
  
  $\quad$ $\mu_k$ = cluster centroid $k$ ( $\mu_k \in \mathbb{R}^n$ )
  
  $\quad$ $\mu_{c^{(i)}}$ = cluster centroid of cluster to which example $x^{(i)}$ has been assigned
- 为了防止算法陷入局部最优解，可以通过多次随机初始化聚类中心，然后选择畸变值最小的那次聚类结果即可。
- 选择聚类数量：通常通过观察数据来人为进行选择，有时也可通过"肘部法则"来帮助我们选择聚类数量，但并不能期待它每次都能取得好的效果。
降维
- 降维可以压缩数据和可视化数据。
- 主成分分析法(PCA)：将数据投影到低维平面。
  - 数据预处理：对原始数据进行均值标准化和特征缩放。
  - 计算协方差矩阵： $\frac{1}{m}\sum_{i = 1}^m(x^{(i)})(x^{(i)})^T$
  - 计算协方差矩阵的特征向量： $[U, S, V] = s v d (S i g m a)$ 【svd为奇异值分解函数】
  - 通过 $s v d$ 函数我们可以得到 $n * n$ 的特征矩阵 $U$ ，取矩阵 $U$ 的前 $k$ 列作为 $k$ 维平面的 $k$ 个方向向量即可，即 $U_{reduce} = U(:, 1:k)$
  - 最后可以通过计算得到降维后的数据： $U_{reduce}' * x$
- 压缩重现/数据的重构： $x_{approx} = U_{reduce}*z$
- PCA中主成分数量 $k$ 的选择(原理)
  - Average squared projection error (平均平方映射误差) : $\frac{1}{m}\sum_{i = 1}^m||x^{(i)} -x_{approx}^{(i)}||^2$
  - Total variation in the data (数据的总变差) : $\frac{1}{m}\sum_{i = 1}^m||x^{(i)}||^2$
  - Choose $k$ to be the smallest value so that $\frac{\frac{1}{m}\sum_{i = 1}^m||x^{(i)} -x_{approx}^{(i)}||^2}{\frac{1}{m}\sum_{i = 1}^m||x^{(i)}||^2} \le 0.01$ (1%)
    
    “99% of variance is retained”
- PCA中主成分数量 $k$ 的选择(实际操作)
  - [U, S, V] = svd(Sigma)
  - Pick smallest value of $k$ for which $\frac{\sum_{i = 1}^kS_{ii}}{\sum_{i = 1}^mS_{ii}} \le 0.01$ , 即 $\frac{\sum_{i = 1}^kS_{ii}}{\sum_{i = 1}^mS_{ii}} \ge 0.99$
    
    “99% of variance is retained”
异常检测问题
- 高斯分布(正态分布)
  - $\mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x - \mu)^2}{2\sigma^2})$
  - 参数估计： $\mu = \frac{1}{m}\sum_{i = 1}^mx^{(i)}$ , $\sigma^2 = \frac{1}{m}\sum_{i = 1}^m(x^{(i)} - \mu)^2$
- Anomaly detection algorithm
  - Choose features $x_i$ that you think might be indicative of anomalous examples.
  - Fit parameters $\mu_1,\dots, \mu_n,\sigma_1^2,\dots,\sigma_n^2$
    
    $\mu_j = \frac{1}{m}\sum_{i = 1}^mx_j^{(i)} \quad \quad \sigma_j^2 = \frac{1}{m}\sum_{i = 1}^m(x_j^{(i)} - \mu_j)^2$
  - Given new example $x$ , compute $p (x)$ :
    
    $\prod_{j = 1}^{n}p(x_j;\mu_j, \sigma_j^2) = \prod_{j = 1}^{n}\frac{1}{\sqrt{2\pi}\sigma_j}exp(-\frac{(x_j - \mu_j)^2}{2\sigma_j^2})$
    
    Anomaly if $\epsilon$
- 异常检测与监督学习的试用情况：
  
  异常检测：大量的负样本，极少的正样本；许多不同类型的异常；未来可能出现新的异常类型。
  
  监督学习：大量的正负样本。
- 注：在使用异常检测算法时，如果有的特征分布不符合高斯分布，可以对这个特征的数据进行对数变换、指数变换等使其符合高斯分布，这样算法运行的会更好。
- 多元高斯分布
  - $\mu, \Sigma) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu))$ 其中 $\mu \in \mathbb{R}, \Sigma \in \mathbb{R}^{n\times n}$
  - 参数估计： $\mu = \frac{1}{m}\sum_{i = 1}^mx^{(i)}$ , $\Sigma = \frac{1}{m}\sum_{i = 1}^m(x^{(i)} - \mu)(x^{(i)} - \mu)^T$
Recommender Systems(推荐系统)
- Content-based recommendations(基于内容的推荐算法)
  
  $r (i, j) = 1$ if user $j$ has rated movie $i$ (0 otherwise)
  
  $y^{(i, j)} =$ rating by user $j$ on movie $i$ (if defined)
  
  $\theta^{(j)} =$ parameter vector for user $j$
  
  $x^{(i)} =$ feature vector for movie $i$
  
  For user $j$ , movie $i$ , predicted rating: $(\theta^{(j)})^T(x^{(i)})$
  
  $m^{(j)} =$ no. of movies rated by user $j$
  
  To learn $\theta^{(j)}$ (parameter for user $j$ ): $\underset{\theta^{(j)}}{min}\frac{1}{2}\sum_{i:r(i, j) = 1}((\theta^{(j)})^Tx^{(i)} - y^{(i, j)})^2 + \frac{\lambda}{2}\sum_{k = 1}^n(\theta_k^{(j)})^2$
  
  To learn $\theta^{(1)},\theta^{(2)},\dots,\theta^{(n_u)}$ :
  
  $\quad$ $\underset{\theta^{(1)},\dots,\theta^{(n_u)}}{min}\frac{1}{2}\sum_{j = 1}^{n_u}\sum_{i:r(i, j) = 1}((\theta^{(j)})^Tx^{(i)} - y^{(i, j)})^2 + \frac{\lambda}{2}\sum_{j = 1}^{n_u}\sum_{k = 1}^n(\theta_k^{(j)})^2$
  
  Gradient descent :
  
  $\quad$ $\theta_k^{(j)} := \theta_k^{(j)} - \alpha\sum_{i:r(i,j) = 1}((\theta^{(j)})^Tx^{(i)} - y^{(i,j)})x_k^{(i)} \quad (for \ k = 0)$
  
  $\quad$ $\theta_k^{(j)} := \theta_k^{(j)} - \alpha\sum_{i:r(i,j) = 1}(((\theta^{(j)})^Tx^{(i)} - y^{(i,j)})x_k^{(i)} + \lambda\theta^{(j)}) \quad (for \ k \ne 0)$
- Collaborative filtering(协同过滤)
  - 优化目标
    
    Given $x^{(1)},\dots,x^{(n_m)}$ , estimate $\theta^{(1)}, \dots, \theta^{(n_u)}$ :
    
    $\quad$ $\underset{\theta^{(1)},\dots,\theta^{(n_u)}}{min}\frac{1}{2}\sum_{j = 1}^{n_u}\sum_{i:r(i, j) = 1}((\theta^{(j)})^Tx^{(i)} - y^{(i, j)})^2 + \frac{\lambda}{2}\sum_{j = 1}^{n_u}\sum_{k = 1}^n(\theta_k^{(j)})^2$
    
    Given $\theta^{(1)}, \dots,\theta^{(n_u)}$ , estimate $x^{(1)},\dots,x^{(n_m)}$ :
    
    $\quad$ $\underset{x^{(1)},\dots,x^{(n_m)}}{min}\frac{1}{2}\sum_{i = 1}^{n_m}\sum_{j:r(i, j) = 1}((\theta^{(j)})^Tx^{(i)} - y^{(i, j)})^2 + \frac{\lambda}{2}\sum_{i = 1}^{n_m}\sum_{k = 1}^n(x_k^{(i)})^2$
    
    Minimizing $x^{(1)},\dots,x^{(n_m)}$ and $\theta^{(1)},\dots,\theta^{(n_u)}$ simultaneously :
    
    $\quad$ $J(x^{(1)},\dots,x^{(n_m)},\theta^{(1)},\dots,\theta^{(n_u)}) = \frac{1}{2}\sum_{(i,j):r(i,j) = 1}((\theta^{(j)})^Tx^{(i)} - y^{(i, j)})^2 \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad + \frac{\lambda}{2}\sum_{i = 1}^{n_m}\sum_{k = 1}^n(x_k^{(i)})^2 + \frac{\lambda}{2}\sum_{j = 1}^{n_u}\sum_{k = 1}^n(\theta_k^{(j)})^2$
    
    $\underset{x^{(1)},\dots,x^{(n_m)} \\ \theta^{(1)},\dots,\theta^{(n_u)}}{min}J(x^{(1)},\dots,x^{(n_m)},\theta^{(1)},\dots,\theta^{(n_u)})$
  - 算法过程
    
    Initialize $x^{(1)},\dots,x^{(n_m)},\theta^{(1)},\dots,\theta^{(n_u)}$ to small random values.
    
    Minimize $J(x^{(1)},\dots,x^{(n_m)},\theta^{(1)},\dots,\theta^{(n_u)})$ using gradient descent (or an advanced optimization algorithm).E.g. for every $\dots,n_u,i = 1\dots,n_m$ :
    
    $\quad$ $x_k^{(i)} := x_k^{(i)} - \alpha\sum_{j:r(i,j) = 1}((\theta^{(j)})^Tx^{(i)} - y^{(i,j)})\theta_k^{(j)} + \lambda x_k^{(j)})$
    
    $\quad$ $\theta_k^{(j)} := \theta_k^{(j)} - \alpha\sum_{i:r(i,j) = 1}((\theta^{(j)})^Tx^{(i)} - y^{(i,j)})x_k^{(i)} + \lambda\theta_k^{(j)})$
    
    For a user with parameters $\theta$ and a movie with (learned) features $x$ , predict a star rating of $\theta^Tx$
- 改进：如果有一个用户 $i$ 没有对任何电影进行评分，那么执行上述的协调过滤算法之后预测出的 $\theta^{(i)}$ 全为0， $(\theta^{(j)})^Tx(x^{(i)})$ 也会全为0，即用户 $i$ 对所有的电影的预测评分均为0，便无法向其推荐电影。我们可以先利用均值归一化来预处理所有的评分数据，然后再执行协同过滤算法，而且在预测评分的时候采用 $(\theta^{(j)})^T(x^{(i)}) + \mu_i$ , 即可解决上述问题。[其中矩阵 $\mu$ 为所有电影的平均评分]
大规模机器学习
- 大规模机器学习需要处理海量的数据，会带来计算问题。
- Stochastic gradient descent (随机梯度下降)
  - $cost(\theta,(x^{(i)},y^{(i)})) = \frac{1}{2}(h_\theta(x^{(i)}) - y^{(i)})^2$ , $J_{train}(\theta) = \frac{1}{m}\sum_{i = 1}^m cost(\theta,(x^{(i)},y^{(i)}))$
  - Randomly shuffle (reorder) tarining examples.
    
    Repeat {
    
    $\quad$ for $1,\dots,m$ {
    
    $\quad$ $\quad$ $\theta_j := \theta_j - \alpha(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)}$ (for every $0,\dots,n$ )
    
    $\quad$ }
    
    }
- Mini-batch gradient descent
  
  Say $b = 10, m = 1000$ .
  
  Repeat {
  
  $\quad$ for $\dots, 991$ {
  
  $\quad$ $\quad$ $\theta_j := \theta_j - \alpha\frac{1}{10}\sum_{k = i}^{i + 9}(h_\theta(x^{(k)}) - y^{(k)})x_j^{(k)}$ (for every $0,\dots,n$ )
  
  $\quad$ }
  
  }
- Map-reduce: 将大数据集分布到多台电脑上面并行计算。
Photo OCR(照片光学字符识别): Text dection; Character segmentation; Character recognition.通常用滑动窗口来检测图片中含有文字的区域，然后再利用滑动窗口来进行文字切割，最后用神经网络或者其他算法进行字符识别。
人工数据合成：自己创造数据；从已有数据集中按照某种方法生成更多数据。