一句话概括主成分分析
主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。
主成分分析步骤
- 对原始数据进行标准化处理
- 计算标准化数据协方差矩阵
- 求协方差矩阵的特征值和特征向量
- 将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵
- 将样本点投影到选取的特征向量上
Python代码实现
导入相关的Python库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
创建主成分分析类,包含函数 f i t ( ) fit() fit() 和 t r a n s f o r m ( ) transform() transform():
- f i t ( ) fit() fit() 为pca模型训练函数,输入参数分别用来训练的原始数据(Dataframe格式)和设定的降维后特征数 k k k
- t r a n s f o r m ( ) transform()