📌 一、数据集简介
-
数据名称:Breast Cancer Wisconsin Dataset
-
数据来源:
scikit-learn
库内置 -
样本数量:569 条
-
特征数量:30 个数值型特征
-
目标分类:
-
0
: 恶性肿瘤(malignant) -
1
: 良性肿瘤(benign)
-
📥 二、加载与初步查看
from sklearn.datasets import load_breast_cancer
import pandas as pd
# 加载数据
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
# 显示数据基本信息
print(df.shape)
print(df.head())
🔍 三、目标变量分布
import matplotlib.pyplot as plt
import seaborn as sns
# 标签分布
sns.countplot(x='target', data=df)
plt.title('Target Distribution (0 = Malignant, 1 = Benign)')
plt.xlabel('Tumor Type')
plt.ylabel('Count')
plt.xticks([0, 1], ['Malignant', 'Benign'])
plt.show()
📊 结果说明:
-
恶性(0)样本较少
-
良性(1)样本相对较多
📈 四、特征的基本统计分析
# 简单描述性统计
print(df.describe())
可以查看每个特征的均值、标准差、最小值、最大值等信息。
📊 五、相关性分析(热力图)
# 计算相关系数矩阵
corr = df.corr()
# 绘制热力图
plt.figure(figsize=(15, 12))
sns.heatmap(corr, cmap='coolwarm', square=True, annot=False)
plt.title("Feature Correlation Heatmap")
plt.show()
🔥 说明:
-
可以观察哪些特征之间高度相关(例如
mean radius
与mean perimeter
) -
可用于后续降维、特征选择
🎯 六、主要特征与目标的关系(箱线图)
# 绘制几个主要特征的箱线图
features = ['mean radius', 'mean texture', 'mean perimeter', 'mean area']
plt.figure(figsize=(12, 8))
for i, feature in enumerate(features):
plt.subplot(2, 2, i+1)
sns.boxplot(x='target', y=feature, data=df)
plt.title(f'{feature} by Tumor Type')
plt.tight_layout()
plt.show()
💡 解读:
-
恶性肿瘤在多个维度上(如半径、面积)数值更大
-
有明显分布差异,可用于模型判别
📉 七、降维可视化(PCA)
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
# 标准化数据
X = df.drop('target', axis=1)
X_scaled = StandardScaler().fit_transform(X)
# PCA降维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
# 可视化
plt.figure(figsize=(8, 6))
sns.scatterplot(x=X_pca[:, 0], y=X_pca[:, 1], hue=df['target'], palette='Set1')
plt.title("PCA of Breast Cancer Dataset")
plt.xlabel("Principal Component 1")
plt.ylabel("Principal Component 2")
plt.legend(['Malignant', 'Benign'])
plt.show()
🔍 结论:
-
PCA降维后的二维分布图中,恶性和良性样本大致可分
-
表明该数据集具有良好的分类边界
✅ 总结
项目 | 说明 |
---|---|
数据量 | 569 条 |
特征数 | 30 个 |
目标分类 | 0 = 恶性,1 = 良性 |
特征相关性 | 存在多对高度相关特征 |
可视化 | 热力图、箱线图、PCA图有效展示数据结构 |