Python数据分析_第15课：降维方法_笔记

最新推荐文章于 2024-07-03 09:14:26 发布

RealEmperor

最新推荐文章于 2024-07-03 09:14:26 发布

阅读量911

点赞数

分类专栏： Python数据分析文章标签： Python PCA

本文链接：https://blog.csdn.net/weixin_42018258/article/details/99982922

版权

本文探讨了降维在数据分析中的重要性，包括简化数据、减少计算成本和提升可理解性。介绍了主成分分析（PCA）和因子分析两种方法，详细阐述了PCA的基本概念如协方差矩阵、特征值与特征向量，并提供了鸢尾花数据集的降维案例。因子分析作为PCA的推广，更注重相关变量的共变异量，其结果通常更具业务解释性。文章提供了sklearn库中PCA和因子分析的相关文档链接，供进一步学习参考。

摘要由CSDN通过智能技术生成

GitHub: https://github.com/RealEmperor/Python-for-Data-Analysis

为何要降维？
1.使数据集更易使用
2.降低算法计算开销
3.去除噪声
4.使得结果易懂

降维的方式主要有两种方式：
1.主成分分析（PCA）——坐标系转换
2.因子分析——隐变量

主成分分析（PCA）

优点：降低数据的复杂性，识别最重要的多个特征

缺点：不一定需要，且可能损失有用信息

适用数据类型：数值型数据

基本概念

协方差矩阵

# 协方差矩阵
import numpy as np

X = [[2, 0, -1.4],
     [2.2, 0.2, -1.5],
     [2.4, 0.1, -1],
     [1.9, 0, -1.2]]
print(np.cov(np.array(X).T))

[[ 0.04916667  0.01416667  0.01916667]
 [ 0.01416667  0.00916667 -0.00583333]
 [ 0.01916667 -0.00583333  0.04916667]]

特征值与特征向量

# 特征值与特征向量
w, v = np.linalg.eig(np.array([[1, -2], [2, -3]]))
print('特征值：{}\n特征向量：{}'.format(w, v))

特征值：[-0.99999998 -1.00000002]
特征向量：[[ 0.70710678  0.70710678]
 [ 0.70710678  0.70710678]]

点积

a = [[-0.27, -0.3],
     [1.23, 1.3],
     [0.03,

最低0.47元/天解锁文章

RealEmperor

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录