异常检测-PCA方法

异常检测-PCA方法

记录DataWhale的异常检测的学习过程,使用的教材可以在此链接中下载。
Task3介绍的是传统的基于线性相关方法的异常检测算法,最常用的是PCA方法,本文先介绍最基本的最小二乘拟合,再从线性回归的角度介绍PCA算法,并主要介绍PCA在异常检测中的原理,最后在breast cancer数据集上对比了PCA与HBOS算法的性能。

线性回归-最小二乘拟合

基于最小二乘拟合的线性回归差不多是所有机器学习课程的第一课,我们可以这样定义问题:有带标签数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋯ ( x m , y m ) } D=\{(\boldsymbol{x_1},y_1),(\boldsymbol{x_2},y_2)\cdots(\boldsymbol{x_m},y_m)\} D={ (x1,y1),(x2,y2)(xm,ym)},其中 x i ∈ R d \boldsymbol{x_i}\in\mathbb R^d xiRd m m m个样本的特征组成特征矩阵 X X X,其中 X ∈ R m × d X\in\mathbb R^{m\times d} XRm×d(每一行是一个样本); m m m个样本的标签组成标签向量 y = ( y 1 , y 2 ⋯ y m ) T \boldsymbol{y}=(y_1,y_2\cdots y_m)^T y=(y1,y2ym)T。 我们的目的是求出未知参数 θ \boldsymbol{\theta} θ, 其中, θ ∈ R d \boldsymbol{\theta}\in \mathbb R^d θRd,使得 ∣ ∣ X θ − y ∣ ∣ 2 2 || X\boldsymbol{\theta}-\boldsymbol{y}||^2_2 Xθy22最小。我们记 J ( θ ) = ∣ ∣ X θ − y ∣ ∣ 2 2 J(\boldsymbol{\theta})=|| X\boldsymbol{\theta}-\boldsymbol{y}||^2_2 J(θ)=Xθy22, J ( θ ) J(\boldsymbol{\theta}) J(θ)就是我们要优化的目标函数。

目标函数的数学意义

第一个要回答的问题就是为什么我们的目标函数要定义为 ∣ ∣ X θ − y ∣ ∣ 2 2 || X\boldsymbol{\theta}-\boldsymbol{y}||^2_2 Xθy22这种形式,为什么是残差向量二范数的平方, ∣ ∣ X θ − y ∣ ∣ 2 3 || X\boldsymbol{\theta}-\boldsymbol{y}||^3_2 Xθy23这样的三次方不可以吗?这样定义的背后的数学意义在哪里?

这里我们从概率出发,给出一个数学上的解释,我们考虑某单个样本 ( x i , y i ) ( \boldsymbol{x_i},y_i) (xi,yi),在参数 θ \boldsymbol{\theta} θ确定的情况下存在以下公式:
y i = θ T x i + ϵ i (1) y_{i}=\boldsymbol{\theta}^{T} \boldsymbol{x_i}+\epsilon_i \tag{1} yi=θTxi+ϵi(1)

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值