【数据集】乳腺癌数据集的基础分析与可视化

📌 一、数据集简介

  • 数据名称:Breast Cancer Wisconsin Dataset

  • 数据来源scikit-learn 库内置

  • 样本数量:569 条

  • 特征数量:30 个数值型特征

  • 目标分类

    • 0: 恶性肿瘤(malignant)

    • 1: 良性肿瘤(benign)


📥 二、加载与初步查看

from sklearn.datasets import load_breast_cancer
import pandas as pd

# 加载数据
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# 显示数据基本信息
print(df.shape)
print(df.head())

🔍 三、目标变量分布

import matplotlib.pyplot as plt
import seaborn as sns

# 标签分布
sns.countplot(x='target', data=df)
plt.title('Target Distribution (0 = Malignant, 1 = Benign)')
plt.xlabel('Tumor Type')
plt.ylabel('Count')
plt.xticks([0, 1], ['Malignant', 'Benign'])
plt.show()

📊 结果说明:

  • 恶性(0)样本较少

  • 良性(1)样本相对较多


📈 四、特征的基本统计分析

# 简单描述性统计
print(df.describe())

可以查看每个特征的均值、标准差、最小值、最大值等信息。


📊 五、相关性分析(热力图)

# 计算相关系数矩阵
corr = df.corr()

# 绘制热力图
plt.figure(figsize=(15, 12))
sns.heatmap(corr, cmap='coolwarm', square=True, annot=False)
plt.title("Feature Correlation Heatmap")
plt.show()

🔥 说明

  • 可以观察哪些特征之间高度相关(例如 mean radiusmean perimeter

  • 可用于后续降维、特征选择


🎯 六、主要特征与目标的关系(箱线图)

# 绘制几个主要特征的箱线图
features = ['mean radius', 'mean texture', 'mean perimeter', 'mean area']
plt.figure(figsize=(12, 8))
for i, feature in enumerate(features):
    plt.subplot(2, 2, i+1)
    sns.boxplot(x='target', y=feature, data=df)
    plt.title(f'{feature} by Tumor Type')
plt.tight_layout()
plt.show()

💡 解读

  • 恶性肿瘤在多个维度上(如半径、面积)数值更大

  • 有明显分布差异,可用于模型判别


📉 七、降维可视化(PCA)

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# 标准化数据
X = df.drop('target', axis=1)
X_scaled = StandardScaler().fit_transform(X)

# PCA降维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# 可视化
plt.figure(figsize=(8, 6))
sns.scatterplot(x=X_pca[:, 0], y=X_pca[:, 1], hue=df['target'], palette='Set1')
plt.title("PCA of Breast Cancer Dataset")
plt.xlabel("Principal Component 1")
plt.ylabel("Principal Component 2")
plt.legend(['Malignant', 'Benign'])
plt.show()

🔍 结论

  • PCA降维后的二维分布图中,恶性和良性样本大致可分

  • 表明该数据集具有良好的分类边界


✅ 总结

项目说明
数据量569 条
特征数30 个
目标分类0 = 恶性,1 = 良性
特征相关性存在多对高度相关特征
可视化热力图、箱线图、PCA图有效展示数据结构

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值