【无监督学习】机器学习专项课程学习记录6——异常检测

最新推荐文章于 2023-06-12 10:02:27 发布

小飞狗狗

最新推荐文章于 2023-06-12 10:02:27 发布

阅读量334

点赞数

分类专栏： 2022吴恩达机器学习文章标签：机器学习学习算法

本文链接：https://blog.csdn.net/m0_46314771/article/details/126081545

版权

2022吴恩达机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

学习目标

七月的最后一次更新（2/2），坚持！学会无监督学习中的异常检测。

笔记

1 异常检测算法

1.1 密度估计（Density estimation）

判断 $x_{test}$ 是否异常。作出特征的高斯分布等高线图，可知位于密度小的区域的值更有可能是异常值：在这里插入图片描述

1.2 单个特征的异常检测——高斯分布/正态分布（Gaussian / Normal distribution）

高斯分布的概率公式为：
$\mu,\sigma ^2) = \frac{1}{\sqrt{2 \pi \sigma ^2}}\exp^{ - \frac{(x - \mu)^2}{2 \sigma ^2} }$
其中，第j个特征的均值和方差为：
$\mu_j = \frac{1}{m} \sum_{i=1}^m x_j^{(i)}$

$\sigma_j^2 = \frac{1}{m} \sum_{i=1}^m (x_j^{(i)} - \mu_j)^2$

1.3 异常检测算法

第一步，选择出有助于检测异常情况的n个特征 $x_j$ ；
第二步，计算每个特征的均值 $\mu_j$ 和方差 $\sigma_j^2$ ；
第三步，给定新示例x，计算p(x):
$\prod \limits_{j=1}^n p(x_j;\mu_j,\sigma_j^2) = p(x_1;\mu_1,\sigma_1^2) * p(x_2;\mu_2,\sigma_2^2)* ... *p(x_n;\mu_n,\sigma_n^2)$
最后，给定阈值 $\epsilon$ ，如果 $p(x)<\epsilon$ ，则认为示例x是异常的。

异常检测算法的python实现如下：

# 定义计算特征的均值和方差的函数
def estimate_gaussian(X): 
    m, n = X.shape

    mu =  np.sum(X,axis = 0)/m
    var = np.sum((X-mu)**2,axis = 0)/m
        
    return mu, var  #返回均值和方差

# 定义计算多变量高斯分布概率的函数
def multivariate_gaussian(X, mu, var):   
    k = len(mu)
    
    if var.ndim == 1:
        var = np.diag(var)
        
    X = X - mu
    p = (2* np.pi)**(-k/2) * np.linalg.det(var)**(-0.5) * \
        np.exp(-0.5 * np.sum(np.matmul(X, np.linalg.pinv(var)) * X, axis=1))
    
    return p
    
# 定义一个选择最佳阈值的函数
def select_threshold(y_val, p_val): 
    best_epsilon = 0
    best_F1 = 0
    F1 = 0
    
    step_size = (max(p_val) - min(p_val)) / 1000
    
    for epsilon in np.arange(min(p_val), max(p_val), step_size):# 尝试不同的阈值

        predictions = (p_val < epsilon) 
        tp = sum((predictions == 1)&(y_val == 1))
        fp = sum((predictions == 0)&(y_val == 1))
        fn = sum((predictions == 1)&(y_val == 0))
        prec = tp / (tp + fp)
        rec = tp / (tp + fn)
        F1 = 2 * prec * rec / (prec + rec) # 计算F1分数
        
        if F1 > best_F1:
            best_F1 = F1
            best_epsilon = epsilon
        
    return best_epsilon, best_F1  #最优的阈值对应最好的F1分数


# 在多特征组成的数据集上使用异常检测

# 计算训练集的均值和方差
mu_high, var_high = estimate_gaussian(X_train_high)

# 计算训练集的概率
p_high = multivariate_gaussian(X_train_high, mu_high, var_high)

# 评估验证集的概率
p_val_high = multivariate_gaussian(X_val_high, mu_high, var_high)

# 寻找最优阈值
epsilon_high, F1_high = select_threshold(y_val_high, p_val_high)

# 输出检测结果
print('Best epsilon found using cross-validation: %e'% epsilon_high)
print('Best F1 on Cross Validation Set:  %f'% F1_high)
print('# Anomalies found: %d'% sum(p_high < epsilon_high))