【机器学习】基于多变量特征的乳腺癌自动诊断

本文使用WDBC乳腺癌数据集,通过多变量特征进行乳腺癌的自动诊断,涉及数据读取、样本均衡、数据标准化和模型调参。采用Bayes、KNN、SVM、决策树及随机森林等算法进行分类任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

多变量特征实现乳腺癌诊断

本文立足于通过多分类模型实现乳腺癌诊断,基于WDBC(Breast Cancer Wisconsin ( Diagnostic) Data Set (WDBC))数据集进行代码实现。

数据集简介

数据集链接:WDBC乳腺癌数据集
该数据集是根据乳房肿块的细针抽取采样的数字化图像化后计算出来的,它描述了图像中肿瘤细胞核的特征。

  • 数据集特征:多变量的
  • 样本容量:569(357条良性benign,212条恶性malignant)
  • 每条样本特征数:32 (ID,标签,30个实值输入特征)
  • 相关任务:分类

其中数据集样本特征中除ID和标签外,主要包含半径、纹理、周界、面积等等细胞核实值特征,共计30个。在此就不再一一介绍,均放置于总体程序压缩包中。

以下以Random Forest模型举例:

数据读取

# 读取数据
import numpy as np
import pandas as pd
from sklearn import preprocessing
# 原始数据以csv格式读取
dataset = pd.read_csv(r'C:\Users\Lenovo\Desktop\analyse\wdbc.data.csv',header=None)
# 标签化diagnosis列
encoder = preprocessing.LabelEncoder().fit(dataset['diagnosis'])
dataset['diagnosis'] = encoder.transform(dataset['diagnosis'])
print('标签: %s' % encoder.classes_)

读取数据

# 获取数据
X = np
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

往晓风

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值