多变量特征实现乳腺癌诊断
本文立足于通过多分类模型实现乳腺癌诊断,基于WDBC(Breast Cancer Wisconsin ( Diagnostic) Data Set (WDBC))数据集进行代码实现。
数据集简介
数据集链接:WDBC乳腺癌数据集
该数据集是根据乳房肿块的细针抽取采样的数字化图像化后计算出来的,它描述了图像中肿瘤细胞核的特征。
- 数据集特征:多变量的
- 样本容量:569(357条良性benign,212条恶性malignant)
- 每条样本特征数:32 (ID,标签,30个实值输入特征)
- 相关任务:分类
其中数据集样本特征中除ID和标签外,主要包含半径、纹理、周界、面积等等细胞核实值特征,共计30个。在此就不再一一介绍,均放置于总体程序压缩包中。
以下以Random Forest模型举例:
数据读取
# 读取数据
import numpy as np
import pandas as pd
from sklearn import preprocessing
# 原始数据以csv格式读取
dataset = pd.read_csv(r'C:\Users\Lenovo\Desktop\analyse\wdbc.data.csv',header=None)
# 标签化diagnosis列
encoder = preprocessing.LabelEncoder().fit(dataset['diagnosis'])
dataset['diagnosis'] = encoder.transform(dataset['diagnosis'])
print('标签: %s' % encoder.classes_)
读取数据
# 获取数据
X = np