数据预处理技术
机器是看不懂绝大部分原始数据的,为了让让机器看懂,需要将原始数据进行预处理。
- 引入模块和数据
import numpy as np
from sklearn import preprocessing
data = np.array([[3,-1.5,2,-5.4],
[0,4,0.3,2.1],
[1,3.3,-1.9,-4.3]])
#第0轴长度为3,第1轴长度为4
- 知识前备
线性变换的特征向量(本征向量)是一个非简并的向量,其方向在该变换下不变。该向量在此变换下缩放的比例称为其特征值(本征值)。
一个线性变换通常可以由其特征值和特征向量完全描述。特征空间是相同特征值的特征向量的集合
特征向量外文名 Eigenvector
公式:Av=λv (A:矩阵(即变换),v:特征向量(在满足等式的情况下),λ:特征值(在满足等式的情况下))
- 标准化处理
即保证特征均值为0(均值移除)
数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1
data_standardized=preprocessing.scale(data)
print ("原始data\n",data)
print ("\n经过标准化处理的data\n",data_