异常检测2——PCA异常检测

算法思想

  1. 对原始数据标准化(均值0方差1)
  2. PCA有两种计算方法:最大投影方差与最小重构代价(可以查看下面的PCA推导)

在异常检测中,使用的逻辑是:

  1. 对训练集做特征值分解:特征向量代表方向,对应的特征值是空间中这个方向的方差,特征值越大,方差越大
  2. 我们可以把特征向量所指的方向,看做正常样本点的方向(因为训练集中绝大多数是正常样本点),而计算出的特征值越大,意味着异常点在这个方向上与正常样本的差异越大
  3. 所以接下来,我们只要把跟正常样本不是一路人的点找到就行,它们是异常点,
  4. 特征值作为权重,计算样本点特征值对应的特征向量的距离差(点乘后平方)就计算出X与这个方向的偏差程度
  5. 累加X与每个方向的偏差程度就是X与所有方向的偏差程度
  6. 有特征值加权的偏差程度累加到一定程度就是异常点了,这个阈值有PCA训练得出

PCA推导

在这里插入图片描述

在这里插入图片描述

示例代码

from pyod.utils.data import generate_data
from pyod.models.pca import PCA


def get_data():
    """生成数据"""
    X_train, X_test, y_train, y_test = generate_data(n_features=6, contamination=0.2, behaviour='new')  # 这里生产数据
    return X_train, X_test, y_train, y_test


def get_score(true_data, result_prediction):
    """
    分类问题的得分辅助函数
    :param true_data: 真实值,是要预测的目标
    :param result_prediction: 预测值,用模型预测出来的值
    :return:准确率,精确率,召回率,F1
    :rtype:list
    """
    from sklearn.metrics import accuracy_score
    from sklearn.metrics import precision_score
    from sklearn.metrics import recall_score, f1_score

    acc = accuracy_score(true_data, result_prediction)  # 准确率
    prec = precision_score(true_data, result_prediction)  # 精确率
    recall = recall_score(true_data, result_prediction)  # 召回率
    f1 = f1_score(true_data, result_prediction)  # F1
    score_list = [acc, prec, recall, f1]
    return score_list


def main():
    x_train, x_test, y_train, y_test = get_data()
    pca_model = PCA(contamination=0.2)  # 这里指定原始数据有多少是异常点
    pca_model.fit(x_train)  # 训练数据
    # pca_model.decision_scores_  # 检测参考的分值
    score_list = get_score(y_test, pca_model.predict(x_test))
    print("准确率:{},精确率:{},召回率:{},F1:{}".format(score_list[0], score_list[1], score_list[2], score_list[3]))


if __name__ == '__main__':
    main()
  • 4
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
PCA异常检测是一种使用主成分分析(Principal Component Analysis,PCA)方法进行异常检测的技术。在Python中可以使用numpy、pandas和matplotlib等库进行数据处理和可视化。 首先,读取数据可以使用pandas的read_csv函数,例如: ``` import pandas as pd data = pd.read_csv('task1_data.csv') ``` 然后,对数据进行预处理,包括归一化等操作。接下来,使用PCA进行降维,可以通过设置n_components参数来指定目标维度值,例如将数据降维到8维: ``` from sklearn.decomposition import PCA pca = PCA(n_components=8) x_pca = pca.fit_transform(x_norm) ``` 在降维后,可以计算各成分投影数据方差和方差的比例: ``` var = pca.explained_variance_ var_ratio = pca.explained_variance_ratio_ ``` 对于比例占比,如果前两个维度的占比和接近0.8-0.9,可能信息已经足够了。但需要具体情况具体分析,看对结果有影响的重要信息是否有保留下来,因为并不是说不到0.8就不行。可以使用print函数输出结果: ``` print(var) print(var_ratio) print(sum(var_ratio)) ``` 以上就是使用PCA进行异常检测的Python代码实现。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [python机器学习之异常检测与主成分分析](https://blog.csdn.net/weixin_55579895/article/details/123508174)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆萌的代Ma

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值