用python对数据进行主成分分析、类概念描述及特征化分析-用户手册

数据挖掘课程的期中实验,仅供参考。完成时间:2022.10.29
基本要求:利用python对数据集中的数据进行主成分分析、类概念描述及特征化分析。要有相关结果的可视化结果。比如数据的分布情况。
数据源是TCGA。
数据源及代码:
链接:https://pan.baidu.com/s/11CpKznSP66EAbPzMspRShA
提取码:sovc

相关文章:https://blog.csdn.net/Coral__/article/details/128482614

0.实验环境

操作系统:windows10

语言:python3.7.0

编译器:Visual Studio Code

配置要求:在电脑上任意编译器配好python环境即可,无特殊要求

我们需要将重点放在“源代码及数据集-赖紫馨-202008010204”中的“shujuwajue"文件夹。

1.data

此文件夹中有"BLCA"、“BRCA”、“KIRC”、“LUAD”、"PAAD"五个文件夹,其中的“rna.csv"文件是对应癌症的数据文件。

2.PCA.py(code文件夹中)

此代码对应的是主成分分析。

需要运行对应数据时,只需要修改下图横线的路径名称,然后直接运行就可以生成前两个主成分的散点图。

在这里插入图片描述
在这里插入图片描述

需要生成其他图时,可以将对应代码的注释取消掉。

图1

在这里插入图片描述
在这里插入图片描述

图2

在这里插入图片描述
在这里插入图片描述

图3

在这里插入图片描述
在这里插入图片描述

图4

在这里插入图片描述
在这里插入图片描述

3.characterization.py(code文件夹中)

这个代码对应的是类特征化分析,直接运行即可生成对应图。

我的类特征化分析依然依赖于主成分分析,将前三个主成分通过K-means聚类后,画出三维彩色散点图。(如下图)
在这里插入图片描述

需要运行其他数据时,只需要修改下图横线的路径名称。

在这里插入图片描述

4.compare.py(code文件夹中)

此代码对应的是类对比分析,直接运行即可生成对应图。

我的想法是每种癌症类型选了10个样本,前15个基因,通过折线图的方式,判断同一癌症的不同患者基因表达是否具有相似性。

结果显示是有相似性的。

在这里插入图片描述

需要运行其他数据时,只需要修改下图横线的路径名称。

在这里插入图片描述

5.shang.py(code文件夹中)

此代码对应的是信息增益和属性相关分析,直接运行即可得到对应文件中,两个基因数据之间的数据增益。

默认代码是分析“BLCA”中“A2BP1|54715”和“A2ML1|144568”两个基因数据的数据增益。

在这里插入图片描述

需要运行其他数据时,需要修改下图横线的路径名称及想要分析的基因名称。

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值