人工智能教程 - 学科基础课程2.6 - 机器学习导论 15.异常检测,密度估计,高斯分布,算法,实数评价法

这篇教程介绍了机器学习中的异常检测,包括异常检测的应用、高斯分布的概念与参数估计,强调了实数评价法在算法评估中的重要性。文章通过飞行器例子展示了异常数据检测过程,并提到了交叉验证集和测试集的使用,以及评估算法的各种指标,如真正例、假正例、假负例和真负例,以及准确率、召回率和F1值。
摘要由CSDN通过智能技术生成

异常检测

Anomaly detection

举个飞机制造厂商的例子

在这里插入图片描述
其实类似于生产线的QA 质量控制测试

密度估计

  • 小于阈值,异常点
  • 大于阈值,正常

在这里插入图片描述

应用较为广泛的实际上有欺诈异常检测,也有制造业欺诈

在这里插入图片描述

高斯分布 Gaussian distribution

也叫正态分布 normal distribution
方差 variance
在这里插入图片描述

高斯分布例子

在这里插入图片描述

参数估计

在这里插入图片描述

样本的密度估计

density estimation
在这里插入图片描述

异常检测算法

在这里插入图片描述

  1. 选择特征量
  2. 参数拟合
  3. 根据新样本计算样本的概率

异常检测算法实例

在这里插入图片描述

实数评价法的重要性

The importance of real-number evaluation
当你用某个应用开发一个及其学习算法时,你常常要进行一系列的选择。比如说,选择用什么样的特征,等等。当你找到某种评估方法,直接返回一个实数,来评估你的算法的好坏,往往会容易很多。比如,现在有一个新特性,你需要决定该不该把这个特征考虑进来?
when developing a learning algorithm,making decisions is much easier if we have a way of evaluating our learning algorithm.
要定义一个交叉验证集 Cross validation set 和测试集 Test set,通过两个集合来用于评估这个异常检测算法。
我们假设在交叉验证集和测试集中有一些样本已知是异常的样本即y = 1

飞行器例子

在这里插入图片描述

10000 的数据,可分配给异常数据2-50个

评估算法

在这里插入图片描述

  1. 估计特征的平均值和方差,构建p(x)概率模型

  2. 根据阀值,对交叉检验集/测试机进行预测其数据是否异常

  3. 几个评估的指标:
    1)true positive,false positive,false negative,true negative
    2)准确率 prediction 或召回率 Recall
    3)F1值,实数,可以总结和反应精确度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值