Python数据分析_第15课:降维方法_笔记

本文探讨了降维在数据分析中的重要性,包括简化数据、减少计算成本和提升可理解性。介绍了主成分分析(PCA)和因子分析两种方法,详细阐述了PCA的基本概念如协方差矩阵、特征值与特征向量,并提供了鸢尾花数据集的降维案例。因子分析作为PCA的推广,更注重相关变量的共变异量,其结果通常更具业务解释性。文章提供了sklearn库中PCA和因子分析的相关文档链接,供进一步学习参考。
摘要由CSDN通过智能技术生成


GitHub: https://github.com/RealEmperor/Python-for-Data-Analysis

为何要降维?
1.使数据集更易使用
2.降低算法计算开销
3.去除噪声
4.使得结果易懂

降维的方式主要有两种方式:
1.主成分分析(PCA)——坐标系转换
2.因子分析——隐变量

主成分分析(PCA)

优点:降低数据的复杂性,识别最重要的多个特征

缺点:不一定需要,且可能损失有用信息

适用数据类型:数值型数据

基本概念

协方差矩阵

# 协方差矩阵
import numpy as np

X = [[2, 0, -1.4],
     [2.2, 0.2, -1.5],
     [2.4, 0.1, -1],
     [1.9, 0, -1.2]]
print(np.cov(np.array(X).T))
[[ 0.04916667  0.01416667  0.01916667]
 [ 0.01416667  0.00916667 -0.00583333]
 [ 0.01916667 -0.00583333  0.04916667]]

特征值与特征向量

# 特征值与特征向量
w, v = np.linalg.eig(np.array([[1, -2], [2, -3]]))
print('特征值:{}\n特征向量:{}'.format(w, v))
特征值:[-0.99999998 -1.00000002]
特征向量:[[ 0.70710678  0.70710678]
 [ 0.70710678  0.70710678]]

点积

a = [[-0.27, -0.3],
     [1.23, 1.3],
     [0.03, 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值