机器学习吴恩达课程总结(五)

zqwlearning

已于 2022-04-15 14:52:53 修改

阅读量4.6k

点赞数

分类专栏：机器学习文章标签：机器学习 python

于 2022-04-15 03:00:00 首次发布

本文链接：https://blog.csdn.net/Ws_zqw/article/details/124176761

版权

机器学习专栏收录该内容

6 篇文章 3 订阅

订阅专栏

本文概述了异常检测中的高斯分布原理、多元分布应用，以及推荐系统中的基于内容和协同过滤算法，涉及大规模机器学习中的随机梯度下降。探讨了如何选择特征、评估系统和处理大数据挑战，以照片OCR为例展示了具体应用实例。

摘要由CSDN通过智能技术生成

文章目录

15. 第十五章异常检测（Anomaly Detection）

15.1 问题动机

数据集： ${ {x^{(1)}},{x^{(2)}},...,{x^{(m)}}\}$

现在给出 ${x_{test}}$ ，它是异常的吗？

异常检测样例：欺诈检测；工业制造；监控数据中心计算机

15.2 高斯分布（Gaussian distribution）

高斯分布也叫正态分布。

$\in R$ ，如果 $x$ 满足高斯分布，它的均值是 $u$ ，方差是 ${\sigma ^2}$ ，标准差 ${\sigma}$ ，记作 $\sim N(u,{\sigma ^2})$

$P(x;u,{\sigma ^2}) = {1 \over {\sqrt {2\pi } \sigma }}\exp ( - {{{{(x - \mu )}^2}} \over {2{\sigma ^2}}})$

参数计算： $\over m}\sum\limits_{i = 1}^m {{x^{(i)}}}$ ， ${\sigma ^2} = {1 \over m}\sum\limits_{i = 1}^m {{{({x^{(i)}} - u)}^2}}$

15.3 异常检测算法

选择你认为可能象征着异常的特征 ${x_i}$
计算参数： ${u_1},...,{u_n},\sigma _1^2,...,\sigma _n^2$

${u_j} = {1 \over m}\sum\limits_{i = 1}^m {x_j^{(i)}}$ ， $\sigma _j^2 = {1 \over m}\sum\limits_{i = 1}^m {{{(x_j^{(i)} - {u_j})}^2}}$
给出新的样本 $x$ ，计算 $p(x;u,{\sigma ^2})$
如果 $\varepsilon$ ，则异常

15.4 开发和评估异常检测系统

一个真实具体的数值对评估方法是重要的。

当我们开发一个学习算法时，如果我们有评估方法，我们就可以更加轻易的做决定。

假设我们现在有一些有标签的数据，y=0表示正常，y=1表示异常。

训练集： ${ {x^{(1)}},{x^{(2)}},...,{x^{(m)}}\}$

交叉验证集： ${ (x_{cv}^{(1)},y_{cv}^{(1)}),(x_{cv}^{(2)},y_{cv}^{(2)}),...,(x_{cv}^{(m)},y_{cv}^{(m)})\}$

测试集： ${ (x_{test}^{(1)},y_{test}^{(1)}),(x_{test}^{(2)},y_{test}^{(2)}),...,(x_{test}^{(m)},y_{test}^{(m)})\}$

示例：飞机引擎示例

10000个正常样本y=0；20个异常样本y=1。

训练集：6000个正常样本

验证集：2000个正常样本y=0；10个异常样本y=1

测试集：2000个正常样本y=0；10个异常样本y=1

算法评估：

在训练集 ${ {x^{(1)}},{x^{(2)}},...,{x^{(m)}}\}$ 上训练模型
在验证集或者测试集上进行预测：
混淆矩阵，计算 $F 1 - s c o r e$
根据验证集结果选择 $\varepsilon {\kern 1pt}$

15.5 异常检测VS.监督学习

异常检测：

非常少的正例样本（0~20）
大量负例样本
许多不同 "类型 "的异常现象。任何算法都很难从正例中学习异常现象是什么样子的。未来的异常现象可能看起来与我们目前看到的任何异常都不同

监督学习：

大量的正例和反例
足够多的正面例子让算法来了解正例是什么样的，未来正面的例子可能是与训练集中的例子相似

15.6 选择要使用什么特征

非高斯分布的特征：可以通过函数变换到高斯分布，log，指数等操作
异常检测的误差分析

如果正常样本希望 $p (x)$ 较大；如果异常样本希望 $p (x)$ 较小

经常遇到的问题是无论正常样本还是异常样本 $p (x)$ 都较大。这样可以通过在训练集上找到这个样本，看是否能通过添加新特征将两类样本区分开来
监测数据中心的计算机：选择那些在异常情况下可能会出现异常大或异常小的特征。

15.7 多元高斯分布

在单元高斯分布中，可能认为a点和b点同样好，但是实际却并非如此。

$\in {R^n}$ ， $\in {R^n}$ ， $\Sigma \in {R^{n \times n}}$ （协方差矩阵）
在这里插入图片描述
可以对特征空间高度相关的情况建模， $\Sigma$ 控制着分布

15.8 使用多元高斯分布的异常检测

多元高斯分布

参数 $\in {R^n}$ ， $\Sigma \in {R^{n \times n}}$

参数计算： $\over m}\sum\limits_{i = 1}^m {{x^{(i)}}}$ ， $\Sigma = {1 \over m}\sum\limits_{i = 1}^m {({x^{(i)}} - u)} {({x^{(i)}} - u)^T}$
多元高斯分布的异常检测

计算 $\over m}\sum\limits_{i = 1}^m {{x^{(i)}}}$ ， $\Sigma = {1 \over m}\sum\limits_{i = 1}^m {({x^{(i)}} - u)} {({x^{(i)}} - u)^T}$

计算新样本： $\over {{{(2\pi )}^{{n \over 2}}}|\Sigma {|^{{1 \over 2}}}}}\exp ( - {1 \over 2}{(x - \mu )^T}{\Sigma ^{ - 1}}(x - \mu ))$

如果 $\varepsilon$ ，则异常
原模型与多元对比

原模型 $p({x_1};{u_1};\sigma _1^2) \times p({x_2};{u_2};\sigma _2^2) \times ... \times p({x_n};{u_n};\sigma _n^2)$ 相当于多个单元，是多元的特例：

原模型：
- 手动创建特征以捕获异常情况，采取不寻常的谷值组合
- 计算效率高，适合n较大时
- 训练集m较小时
多元高斯：
- 自动捕捉特征间的相关性
- 计算代价更高
- 必须保证m>n，或者是 $\Sigma$ 可逆

16. 第十六章推荐系统（Recommender System）

16.1 问题规划

目前，许多大公司都在尝试搭建自己的推荐系统
学习一些特征学习的思想

例如：预测电影评分：根据一些用户多某些电影的打分，预测其对其他电影的打分起到偏好推荐的作用。

16.2 基于内容的推荐算法

基于内容的推荐系统

${n_u}$ 表示用户数量； ${n_m}$ 表示电影数量； $r (i, j) = 1$ 表示用户 $j$ 已经对电影 $i$ 打过分； ${y^{(i,j)}}$ 表示用户 $j$ 已经对电影 $i$ 打的分数（仅在 $r (i, j) = 1$ 时有意义）

对于每个用户 $j$ ，学习参数 ${\theta ^{(j)}} \in {R^3}$ ，预测用户 $j$ 对电影 $i$ 的打分 ${({\theta ^{(j)}})^T}{x^{(i)}}$
问题规划

$r (i, j) = 1$ 表示用户 $j$ 已经对电影 $i$ 打过分

${y^{(i,j)}}$ 表示用户 $j$ 已经对电影 $i$ 打的分数（仅在 $r (i, j) = 1$ 时有意义）

${\theta ^{(j)}}$ 表示用户 $j$ 的参数向量

${x^{(i)}}$ 表示电影 $i$ 的特征向量

预测用户 $j$ 对电影 $i$ 的分数 ${({\theta ^{(j)}})^T}{x^{(i)}}$

${m^{(j)}}$ 表示用户 $j$ 打过分的电影数量

为了学习 ${\theta ^{(j)}}$ ： $\mathop {\min }\limits_{{\theta ^j}} {1 \over 2}\sum\limits_{i:r(i,j) = 1}^m {{{({{({\theta ^{(j)}})}^T}{x^{(i)}} - {y^{(i,j)}})}^2} + {\lambda \over 2}\sum\limits_{k = 1}^n {{{(\theta _k^{(j)})}^2}} }$

为了学习 ${\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}}$ ： $J({\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}}) = \mathop {\min }\limits_{{\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}}} {1 \over 2}\sum\limits_{j = 1}^{{n_u}} {\sum\limits_{i:r(i,j) = 1}^m {{{({{({\theta ^{(j)}})}^T}{x^{(i)}} - {y^{(i,j)}})}^2}} } + {\lambda \over 2}\sum\limits_{j = 1}^{{n_u}} {\sum\limits_{k = 1}^n {{{(\theta _k^{(j)})}^2}} }$

梯度下降更新：

$\theta _k^{(j)}: = \theta _k^{(j)} - \alpha \sum\limits_{i:r(i,j) = 1}^m {({{({\theta ^{(j)}})}^T}{x^{(i)}} - {y^{(i,j)}})x_k^{(i)}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} for{\kern 1pt} {\kern 1pt} k = 0}$

$\theta _k^{(j)}: = \theta _k^{(j)} - \alpha (\sum\limits_{i:r(i,j) = 1}^m {({{({\theta ^{(j)}})}^T}{x^{(i)}} - {y^{(i,j)}})x_k^{(i)}{\kern 1pt} + \lambda \theta _k^{(j)}){\kern 1pt} {\kern 1pt} {\kern 1pt} for{\kern 1pt} {\kern 1pt} k \ne 0}$

16.3 协同过滤（Collaborative Filtering）

在基于内容的推荐算法中，我们需要 ${x_1},{x_2}$ 特征分别表示电影爱情，电影动作的程度，不过这通常是较难获取的。

现在假设 ${x_1},{x_2}$ 未知，而转去向用户获取 $\theta$ ，即对爱情或者动作电影的喜爱程度，提供偏好。

优化算法

给出 ${\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}}$ ，去学习 ${x^{(i)}}$ ： $\mathop {\min }\limits_{{x^{(i)}}} {1 \over 2}\sum\limits_{j:r(i,j) = 1}^m {{{({{({\theta ^{(j)}})}^T}{x^{(i)}} - {y^{(i,j)}})}^2} + {\lambda \over 2}\sum\limits_{k = 1}^n {{{(x_k^{(i)})}^2}} }$

给出 ${\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}}$ ，去学习 ${x^{(1)}},{x^{(2)}},...,{x^{({n_m})}}$ ： $\mathop {\min }\limits_{{x^{(1)}},{x^{(2)}},...,{x^{({n_m})}}} {1 \over 2}\sum\limits_{i = 1}^{{n_m}} {\sum\limits_{j:r(i,j) = 1}^m {{{({{({\theta ^{(j)}})}^T}{x^{(i)}} - {y^{(i,j)}})}^2}} } + {\lambda \over 2}\sum\limits_{i = 1}^{{n_m}} {\sum\limits_{k = 1}^n {{{(x_k^{(i)})}^2}} }$
协同过滤

给出 ${x^{(1)}},{x^{(2)}},...,{x^{({n_m})}}$ ，可以计算 ${\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}}$

给出 ${\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}}$ ，可以计算 ${x^{(1)}},{x^{(2)}},...,{x^{({n_m})}}$

那么是先有鸡还是先有蛋呢？

可以猜想出一个初始 $\theta$ ，然后按照 $\theta \to x \to \theta \to x \to \theta \to x \to \theta \to ...$ 的顺序更新。这样更新下去的条件是：每位用户都对数个电影进行了评价，并且每部电影都被数个用户评价过。

协同过滤算法是指：当你执行算法时，要观察大量的用户，观察这些用户的实际行动来协同地得到更佳的每个人对电影的评分。每位用户都在帮助算法更好地进行特征学习。

16.4 协同过滤算法

将上一节两个优化目标结合

同时最小化 ${\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}}$ 和 ${x^{(1)}},{x^{(2)}},...,{x^{({n_m})}}$ ：

$J({x^{(1)}},{x^{(2)}},...,{x^{({n_m})}},{\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}}) = {1 \over 2}\sum\limits_{(i,j):r(i,j) = 1}^m {{{({{({\theta ^{(j)}})}^T}{x^{(i)}} - {y^{(i,j)}})}^2} + {\lambda \over 2}\sum\limits_{i = 1}^{{n_m}} {\sum\limits_{k = 1}^n {{{(x_k^{(i)})}^2}} } + {\lambda \over 2}\sum\limits_{j = 1}^{{n_u}} {\sum\limits_{k = 1}^n {{{(\theta _k^{(j)})}^2}} } }$

这时 $\in {R^n},\theta \in {R^n}$ 舍弃 ${x_0}$ ，更加灵活

$\mathop {\min }\limits_{{x^{(1)}},{x^{(2)}},...,{x^{({n_m})}},{\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}}} J({x^{(1)}},{x^{(2)}},...,{x^{({n_m})}},{\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}})$
协同过滤算法

随机初始化 ${\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}}$ 和 ${x^{(1)}},{x^{(2)}},...,{x^{({n_m})}}$
使用梯度下降或者其他高级优化算法最小化 $J({x^{(1)}},{x^{(2)}},...,{x^{({n_m})}},{\theta ^{(1)}},{\theta ^{(2)}},...,{\theta ^{({n_u})}})$

$x_k^{(i)}: = x_k^{(i)} - \alpha (\sum\limits_{j:r(i,j) = 1}^m {({{({\theta ^{(j)}})}^T}{x^{(i)}} - {y^{(i,j)}})\theta _k^{(j)}{\kern 1pt} + \lambda x_k^{(i)}){\kern 1pt} {\kern 1pt} }$

$\theta _k^{(j)}: = \theta _k^{(j)} - \alpha (\sum\limits_{i:r(i,j) = 1}^m {({{({\theta ^{(j)}})}^T}{x^{(i)}} - {y^{(i,j)}})x_k^{(i)}{\kern 1pt} + \lambda \theta _k^{(j)}){\kern 1pt} {\kern 1pt} {\kern 1pt} for{\kern 1pt} {\kern 1pt} k \ne 0}$
预测用户 $j$ 对电影 $i$ 的打分 ${({\theta ^{(j)}})^T}{x^{(i)}}$

16.5 矢量化：低秩矩阵分解

找到相关的电影：
对于每个电影 $i$ ，我们学习 ${x^{(i)}} \in {R^n}$

如何找到与电影 $i$ 相关的电影 $j$ 呢？

用 ${x^{(i)}} - {x^{(j)}}\parallel$ 衡量两个电影的相似程度。

16.6 实现细节：均值规范化

问题：假设有一个用户没有对任何电影进行评价，那么通过上述算法得出的 $\theta$ 为全零向量，无法向该用户进行推荐。

17. 第十七章大规模机器学习

17.1 大数据学习

“不是谁有最好的算法就能获胜。而是谁拥有最多的数据”。

“It’s not who has the best algorithm that wins. It’s who has the most data." ——[Banko and Brill, 2001]

17.2 随机梯度下降（Stochastic Gradient Descent，SGD）

问题：当数据量很大时，我们采用批量梯度下降法梯度更新会很慢。

批量梯度下降法：使用全体样本计算梯度

随机梯度下降法：每次只使用一个样本计算梯度

小批量梯度下降法：每次使用一小部分样本计算梯度

随机梯度下降法通常比批量梯度下降法收敛更快！

17.3 小批量梯度下降法（Mini-batch Gradient Descent）

随机梯度下降法无法利用一些并行化的操作，小批量梯度下降法通常更快！

17.4 随机梯度下降法收敛

检查是否收敛：

批量梯度下降法

绘制 ${J_{train}}(\theta )$ 关于迭代次数的函数图像， ${J_{train}}(\theta ) = {1 \over {2{m_{train}}}}\sum\limits_{i = 1}^{{m_{train}}} {{{({h_\theta }({x_{train}}^{(i)}) - {y_{train}}^{(i)})}^2}}$ ， $m$ 很大，不好计算
随机梯度下降法
- $\cos t(\theta ,({x^{(i)}},{y^{(i)}})) = {1 \over {2m}}{({h_\theta }({x^{(i)}}) - {y^{(i)}})^2}$
- 学习期间，每次更新 $\theta$ 之前使用 ${x^{(i)}},{y^{(i)}})$ 计算 $\cos t(\theta ,({x^{(i)}},{y^{(i)}}))$
- 每1000次迭代绘制过去1000次 $\cos t(\theta ,({x^{(i)}},{y^{(i)}}))$ 平均值的图像

对于随机梯度下降法，如果图像波动过大，可增大迭代次数取平均；如果上升趋势，调小学习率；如果下降，良好；如果平直，出错。

学习率可以缓慢下降。

17.5 在线学习

适合大量数据流下，每次使用一个数据，用过即弃。

能够实时跟随用户偏好，例如CTR学习。

不使用固定数据集，而是连续的数据集。

17.6 减少映射与数据并行

Hadoop开源平台

18. 第十八章应用示例：照片OCR

18.1 问题描述与OCR流水线

照片光学字符识别（Photo Optical Character Recognition）

OCR流程

18.2 滑动窗口（Sliding Windows）

文本识别

首先训练好一个可以对小图片中是否有字符进行分类的分类器，然后用窗口滑动框出原始图片的小区域，进行分类，最后将相邻很近且都有文字的地方连接成大矩阵（二维滑动，监督学习）。
再用一维滑动窗口分割出每个字符
字符分类（监督学习，多分类）

18.3 获取大量数据：人工数据合成

从零开始自行生成

对于OCR任务，可以获取不同的字库，将字体放到不同的背景上，然后用模糊算子或者仿射变换得到数据集。
通过引入失真来合成数据

例如：拉伸压缩变换

引入的失真应该代表测试集中的噪声/失真类型。

通常情况下，向你的数据添加纯粹的随机/无意义的噪音是没有帮助的。
讨论得到更多数据

在花费精力之前，请确保你有一个低偏差的分类器(绘制学习曲线）。例如，不断增加神经网络中的特征数/隐藏单元数，直到你有一个低偏差的分类器。

要获得10倍于我们目前所拥有的数据，会有多少工作？
- 人工合成数据
- 自己收集
- 众包（亚马逊众包平台）