前言
在光谱数据中,并非每个数据点都是有效的,因此,在构建模型时找到与大部分数据不符合的数据
点是一种必要的操作。这些数据我们称之为异常值。在这篇文章中,我们将使用PLS回归进行红外
光谱数据的异常值检测。
异常值评估
面对冗余繁杂的光谱数据,去除异常值毫无疑问成为一种必要的过程。一个疑问随之而来,我们如
何确定数据是异常值?很多异常样本是无法通过人眼观测的。
从宏观来讲,任何不遵循总体趋势的数据点我们都可以称之为异常点。
我们去一个比较直观的例子,如下图所示,散点图中的数据点。异常值游离于集体之外,模型无法
很好的描述这些数据点。
import numpy as np
import matplotlib.pyplot as plt
# 设置数据的参数
mean = 0
std = 1
num_samples = 100
num_outliers = 5
outlier_value = [10,