数据集来自美国威斯康星州的乳腺癌诊断数据集. 由于数据特征较多, 本例使用相关性分析与主成分分析两种方法进行降维了处理, 再通过SVM支持向量机模型对数据进行了分类.
一. 数据预处理
加载数据后对数据进行探索, 可以看到数据可以分为5类:
(一) ID
(二) diagnose
诊断结果. 其中'B'代表良性, 包含357例; 'M'代表恶性, 包含212例.
(三) 包含mean的数据
radius_mean | 半径平均值 |
texture_mean | 文理平均值 |
perimeter_mean | 周长平均值 |
area_mean | 面积平均值 |
smoothness_mean | 平滑程度平均值 |
compactness_mean | 紧密度平均值 |
concavity_mean | 凹度平均值 |
concave points_mean | 凹缝平均值 |
symmetry_mean | 对称性平均值 |
fractal_dimension_mean | 分形维数平均值 |
(四) 包含se的数据
内容与包含mean的数据大致相同, 为各个数据的方差.
(五) 包含worst的数据
内容