异常检测
Anomaly detection
举个飞机制造厂商的例子
其实类似于生产线的QA 质量控制测试
密度估计
- 小于阈值,异常点
- 大于阈值,正常
应用较为广泛的实际上有欺诈异常检测,也有制造业欺诈
高斯分布 Gaussian distribution
也叫正态分布 normal distribution
方差 variance
高斯分布例子
参数估计
样本的密度估计
density estimation
异常检测算法
- 选择特征量
- 参数拟合
- 根据新样本计算样本的概率
异常检测算法实例
实数评价法的重要性
The importance of real-number evaluation
当你用某个应用开发一个及其学习算法时,你常常要进行一系列的选择。比如说,选择用什么样的特征,等等。当你找到某种评估方法,直接返回一个实数,来评估你的算法的好坏,往往会容易很多。比如,现在有一个新特性,你需要决定该不该把这个特征考虑进来?
when developing a learning algorithm,making decisions is much easier if we have a way of evaluating our learning algorithm.
要定义一个交叉验证集 Cross validation set 和测试集 Test set,通过两个集合来用于评估这个异常检测算法。
我们假设在交叉验证集和测试集中有一些样本已知是异常的样本即y = 1
飞行器例子
10000 的数据,可分配给异常数据2-50个
评估算法
-
估计特征的平均值和方差,构建p(x)概率模型
-
根据阀值,对交叉检验集/测试机进行预测其数据是否异常
-
几个评估的指标:
1)true positive,false positive,false negative,true negative
2)准确率 prediction 或召回率 Recall
3)F1值,实数,可以总结和反应精确度