【异常检测】异常分数计算（附代码）

100分100开心

已于 2023-04-29 20:06:19 修改

阅读量2k

点赞数

分类专栏： AI实现文章标签：机器学习 python

于 2023-04-29 10:51:36 首次发布

本文链接：https://blog.csdn.net/qq_43733193/article/details/130438646

版权

AI实现专栏收录该内容

2 篇文章

订阅专栏

异常检测中的异常分数衡量数据点的异常程度，如z-score、百分位数、聚类的silhouettescore、分类的信息熵和回归的预测误差。此外，还介绍了基于自编码器的深度学习方法，通过重构误差来判断异常。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

异常检测任务中的异常分数

异常检测任务中，异常分数是指什么？有哪些计算方法？

异常分数是一个指标，用于衡量数据点与正常数据点之间的差异程度。得分越高，表示越异常。在异常检测中，我们通常将得分高于某个阈值的数据点视为异常点。常见的异常分数计算方法包括：

基于统计方法的异常分数计算：包括基于均值与标准差的z-score、基于百分位数的percentile score等。
基于聚类方法的异常分数计算：包括基于K均值聚类算法的silhouette score等。
基于分类方法的异常分数计算：包括基于决策树算法的信息熵、Gini系数等。
基于回归方法的异常分数计算：包括基于线性回归、逻辑回归等算法的预测误差等。
基于深度学习方法的异常分数计算：包括基于自编码器的重构误差、基于变分自编码器的KL散度等。

1. 基于统计方法的异常分数计算：

(1) 基于均值与标准差的z-score：

import numpy as np

def z_score(x):
    return (x - np.mean(x)) / np.std(x)

(2) 基于百分位数的percentile score：

import numpy as np

def percentile_score(x, percent):
    return np.percentile(x, percent)

2. 基于聚类方法的异常分数计算：

(1) 基于K均值聚类算法的silhouette score：

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

def silhouette_score_cluster(x, n_clusters):
    kmeans = KMeans(n_clusters=n_clusters)
    kmeans.fit(x)
    return silhouette_score(x, kmeans.predict(x))

3. 基于分类方法的异常分数计算：

(1) 基于决策树算法的信息熵：

from sklearn.tree import DecisionTreeClassifier
from scipy.stats import entropy

def entropy_score(x, y):
    clf = DecisionTreeClassifier()
    clf.fit(x, y)
    return entropy(clf.predict_proba(x).T)

4. 基于回归方法的异常分数计算：

(1) 基于线性回归的预测误差：

from sklearn.linear_model import LinearRegression

def linear_regression_score(x, y):
    reg = LinearRegression().fit(x, y)
    return np.abs(reg.predict(x) - y)

5. 基于深度学习方法的异常分数计算：

(1) 基于自编码器的重构误差：

from keras.layers import Input, Dense
from keras.models import Model

def autoencoder_score(x):
    encoding_dim = 32
    input_data = Input(shape=(x.shape[1], ))
    encoded = Dense(encoding_dim, activation='relu')(input_data)
    decoded = Dense(x.shape[1], activation='sigmoid')(encoded)
    autoencoder = Model(input_data, decoded)
    autoencoder.compile(optimizer='adam', loss='mse')
    autoencoder.fit(x, x, epochs=50, batch_size=32, shuffle=True)
    return np.linalg.norm(autoencoder.predict(x) - x, axis=1)

以下是使用PyTorch实现的代码示例：

import torch
import torch.nn as nn

class Autoencoder(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(Autoencoder, self).__init__()
        self.encoder = nn.Sequential(nn.Linear(input_size, hidden_size),
                                     nn.ReLU())
        self.decoder = nn.Sequential(nn.Linear(hidden_size, input_size),
                                     nn.Sigmoid())
        
    def forward(self, x):
        encoded = self.encoder(x)
        decoded = self.decoder(encoded)
        return decoded
    
def anomaly_score(x, model):
    x = torch.tensor(x, dtype=torch.float32)
    with torch.no_grad():
        loss = model(x) - x
        loss = torch.mean(torch.pow(loss, 2), dim=1)
    return loss

# 训练模型
def train_autoencoder(data_loader, learning_rate, num_epochs):
    input_size = data_loader.dataset.tensors[0].shape[1]
    hidden_size = 32 # 隐藏层节点数
    model = Autoencoder(input_size, hidden_size)
    criterion = nn.MSELoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
    
    for epoch in range(num_epochs):
        for data in data_loader:
            inputs, _ = data
            optimizer.zero_grad()
            
            outputs = model(inputs.float())
            loss = criterion(outputs, inputs.float())
            loss.backward()
            optimizer.step()
        
        print('Epoch [{}/{}], Loss {:.4f}'.format(epoch+1, num_epochs, loss.item()))
    
    return model

代码分解：
（1）Autoencoder类定义了一个具有单隐藏层的自编码器模型，它有一个编码器和一个解码器，编码器将输入数据压缩成潜在空间表示，解码器则将这个表示转换回原始数据空间。
（2）anomaly_score函数计算输入数据的异常分数，是基于这个自编码器的重构误差计算的。
（3）train_autoencoder函数则训练自编码器模型，使其最小化重构误差。