数据分析案例-基于PCA主成分分析法对葡萄酒数据进行分析_pca数据示例(3)

2401_84159688

于 2024-05-12 05:38:25 发布

阅读量1k

点赞数 30

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84159688/article/details/138740175

版权

程序员专栏收录该内容

189 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

①使用主成分分析对数据进行降维分析

②构建葡萄酒分类模型

2.2数据集介绍

wine样本数据集中是double类型的178 * 14矩阵包括了三种酒中13种不同成分的数量。文件中，每行代表一种酒的样本，共有178个样本，一共有14列，其中，第一个属性是类标识符，分别是1/2/3来表示，代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是，酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本，第2类有71个样本，第3类有48个样本。具体属性描述如下：


属性	属性描述
target	类别
Alcohol	酒精
Malic acid	苹果酸
Ash	灰
Alkalinity of ash	灰分的碱度
Magnesium	镁
Total phenoids	总酚
Flavonoids	黄酮类化合物
Noflavanoid phenols	非黄烷类酚类
Proanthocyanins	原花色素
Color intensity	颜色强度
Hue	色调
0D280/0315ofdiluted wines	稀释葡萄酒的0D280/0315
proline	脯氨酸

2.3技术工具

Python版本：3.9

编译工具：jupyter notebook

3.算法理论

主成分分析简介

主成分分析是数据降维算法的一种，降维是将高维度的数据（指标太多）保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。

主成分分析是利用降维的思想，在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分之间互不相关，这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息，从而更容易抓住主要矛盾，揭示事物内部变量之间的规律性，同时使问题得到简化，提高分析效率。

主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。

主成分分析的思想

假设有 n nn 个样本，p pp 个指标，则可构成大小为 n × p n\times pn×p 的样本矩阵 x xx：