异常检测 (anomaly detection
背景
异常检测 (anomaly detection),或者又被称为“离群点检测” (outlier detection)。这是机器学习算法的一个常见应用。这种算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。
什么叫做异常
- 异常数据跟样本中大多数数据不太一样。
- 异常数据在整体数据样本中占比比较小。
异常检测主要用来识别欺骗。例如在线采集而来的有关用户的数据,一个特征向量中可能会包含如:用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户。
算法
高斯分布开发异常检测算法
D a t a s e t : { x ( 1 ) , x ( 2 ) , . . . , x ( m ) } Dataset:\{x^{(1)},x^{(2)},...,x^{(m)}\} Dataset:{
x(1),x(2),...,x(m)}
求出每一个特征的期望和方差
我们假设 N ( μ i , σ i 2 )