吴恩达机器学习（二十一）—— ex8：Anomaly Detection and Recommender Systems (MATLAB + Python)

最新推荐文章于 2022-01-03 17:28:46 发布

大彤小忆

最新推荐文章于 2022-01-03 17:28:46 发布

阅读量4k

点赞数 6

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/HUAI_BI_TONG/article/details/115741874

版权

吴恩达机器学习系列内容的学习目录 $\rightarrow$ 吴恩达机器学习系列内容汇总。

本次练习对应的基础知识总结 $\rightarrow$ 异常检测和推荐系统。

本次练习对应的文档说明和提供的MATLAB代码 $\rightarrow$ 提取码：7g7b 。

本次练习对应的完整代码实现(MATLAB + Python版本) $\rightarrow$ Github链接。

一、异常检测

在本练习中，我们将实现异常检测算法以检测服务器计算机中的异常行为。该特征为每个服务器响应的吞吐量（mb/s）和延迟（ms）。当我们的服务器正在运行时，我们收集了 $m = 307$ 个它们行为方式的样本，因此有一个未标记的数据集 ${x^{(1)},x^{(2)},...,x^{(m)}\}$ 。我们认为绝大多数的样本是“正常的”（非异常的），即服务器正常运行，但在该数据集中也可能有一些服务器异常运行。
我们将使用高斯模型来检测数据集中的异常样本。我们将首先从2D数据集上开始，允许可视化算法正在进行的内容。在该数据集上，我们将拟合高斯分布，然后找到具有非常低的概率的值，可以被视为异常。之后，我们将应用异常检测算法于具有很多维度的较大数据集。我们将在这部分练习中使用ex8.m。
ex8.m的第一部分将可视化数据集，如图1所示。

在这里插入图片描述

图1 第一个数据集

1.1 高斯分布

要进行异常检测，我们将首先需要使模型去拟合数据的分布。
给定训练集 ${x^{(1)},x^{(2)},...,x^{(m)}\}$ （其中 $x^{(i)}∈R^{n}$ ），我们想要估计每个特征 $x^{(i)}$ 的高斯分布。对于每个特征 $i = 1, . . ., n$ ，我们需要找到参数 $μ_{i}$ 和 $\sigma_{i}^{2}$ 拟合第 $i$ 维的数据 ${x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(m)}\}$ （每个样本的第 $i$ 个维度）。
高斯分布由下式给出 $\mu , \sigma ^{2})=\frac{1}{\sqrt{2\pi \sigma }}e^{(-\frac{(x-\mu )^{2}}{2\sigma ^{2}})}$ 其中， $μ$ 是均值， $\sigma ^{2}$ 是方差。

1.2 估计高斯参数

我们可以使用以下等式估计第 $i$ 个特征的参数 $(μ_{i},\sigma_{i} ^{2})$ 。要计算均值，我们将使用 $\mu_{i} =\frac{1}{m}\sum ^{m}_{j=1}x_{i}^{(j)}$ 对于方差。我们使用 $\sigma_{i} ^{2}=\frac{1}{m}\sum ^{m}_{j=1}(x_{i} ^{(j)}-\mu_{i} )^{2}$ 我们的任务是完成 estimateGaussian.m中的代码。此函数输入数据矩阵 $X$ ，应该输出一个保存所有 $n$ 个特征均值的n维向量 $\mu$ ，以及输出另一个保存所有特征方差的n维向量 $\sigma^{2}$ 。我们可以在每个特征和每个训练样本中使用for循环实现这一点（向量化实现可能更有效）。要注意的是，在MATLAB中，当计算 $\sigma_{i}^{2}$ 时，var函数（默认情况下）使用 $\frac{1}{m-1}$ ，而不是 $\frac{1}{m}$ 。
完成estimateGaussian.m需要填写以下代码：

mu = mean(X)';
%var normalizes V by N-1 if N>1,where N is the sample size. 
% sigma2 = var(X) * (n -1) / n;
for i = 1:n
    X(:,i) = X(:,i) - mu(i);
end
sigma2 = 1 / m * sum(X .^2)';

完成estimateGaussian.m的代码后，ex8.m的下一部分将可视化拟合高斯分布的轮廓。我们可以得到图2。从图中可以看到大多数样本在具有最高概率的区域中，而异常样本在具有较低概率的区域中。

在这里插入图片描述

图2 拟合数据分布的高斯分布轮廓

1.3 选择阈值 $ε$

现在我们已经估计了高斯参数，可以研究在该分布的情况下哪个样本具有非常高的概率，哪个样本具有非常低的概率。低概率样本更可能是我们数据集中的异常点。一种确定哪个样本是异常的方法是基于交叉验证集来选择阈值。在这一部分的练习中，我们将使用F1分数在交叉验证集上实现算法，以选择阈值 $ε$ 。
我们现在应该完成selectThreshold.m中的代码。为此，我们将使用交叉验证集 ${(x_{cv}^{(1)},y_{cv}^{(1)})$ ,…, $x_{cv}^{(m_{cv})},y_{cv}^{(m_{cv})})\}$ ，其中标签 $y = 1$ 对应于异常样本， $y = 0$ 对应于正常样本。对于每个交叉验证样本，我们将计算 $p(x_{cv}^{(i)})$ 。所有这些概率 $p(x_{cv}^{(1)})$ ,…, $p(x_{cv}^{(m_{cv})})$ 的向量在向量pval中并传递给selectThreshold.m，相应的标签 $y_{cv}^{(1)}$ ,…, $y_{cv}^{(m_{cv})}$