样本特征分析
1.样品数量分析
在建立模型之前,一般可以对获取到的数据进行特征分析。
样本的数量应该符合,
N>>n
N样本数,i = 1,2,…,i,…,N
n特征数,j = 1,2,…,j,…,n
一般是5或10 的数量级,即N>=10n或N>=5n
在二分类任务中可以是3,即N>=3n
2.特征筛选
2.1 单特征相关性分析
通过相关系数来表示
r(t,x_j) = [(sum_i=1toN(t_i-mean(t)))(x_ij-mean(x_j))]/sqrt [(sum_i=1toN(t_i-mean(t))^2)sum_i=1toN(x_ij-mean(x_j))]
N样本数,i = 1,2,…,i,…,N
n特征数,j = 1,2,…,j,…,n
t单特征的目标值,t_i,第i个样品的目标值(拟合分析中的目标值)。
-1<r <1
|r| 的大小表示相关性的大小
2.2 双特征相关性分析
所有特征两两作图分析。
2.3 三特征相关性分析
所有特征三三作图分析。