1.背景介绍
异常检测,也被称为异常识别或异常发现,是指在数据流中自动识别并标记出异常数据点的过程。异常数据点通常是指与大多数数据点明显不同的数据点。异常检测在许多领域都有应用,如金融、医疗、生物、通信、网络、物联网等。
异常检测可以分为统计学方法和机器学习方法两大类。统计学方法主要包括均值、中位数、方差、标准差等统计量,用于描述数据的特征。机器学习方法则利用人工智能算法来识别异常数据。本文将从两方面进行介绍和分析。
1.1 统计学方法
统计学方法主要基于数据的概率分布。异常数据点通常出现在数据的尾部,概率较低。因此,可以使用概率分布的特征来判断一个数据点是否为异常。常见的概率分布包括均值、中位数、方差、标准差等。
1.1.1 均值
均值是数据集中所有数值的和除以数据集中数值的个数。异常数据点通常离均值较远。可以使用以下公式计算均值:
$$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i $$
1.1.2 中位数
中位数是将数据集按大小顺序排列后,得到的中间值。对于奇数个数据,中位数就是中间的一个值;对于偶数个数据,中位数是中间两个值的平均值。中位数对于异常值的判断也有一定的帮助。
1.1.3 方差
方差是数据集中所有数值与其均值之间差的平均值的平方。方