说明:如需数据可以直接到文章最后关注获取。
1.数据背景
该数据集由美国威斯康星大学医学院的医生们收集,并首次在1992年的一篇论文中被介绍。它成为了机器学习和数据挖掘领域中的经典数据集之一,广泛用于分类算法的研究和评估。
目的:帮助诊断乳房肿块是良性(Benign)还是恶性(Malignant),即是否为乳腺癌,从而辅助医疗决策。
数据采集方法:
影像技术:数据集中使用的细胞核图像是通过细针抽吸活检(Fine Needle Aspiration, FNA)获取的。FNA是一种微创手术,通过细针从疑似肿瘤部位抽取少量细胞样本,然后在显微镜下对这些细胞进行观察和分析。
特征提取:从FNA得到的细胞核图像中,专家们使用特定的软件工具来测量上述提到的各种几何和纹理特征。这些特征能够反映细胞核的形态学变化,而这些变化往往与肿瘤的良性和恶性有关。
应用与影响:
教育和研究:此数据集被广泛用于教学和学术研究,特别是在机器学习、数据挖掘和生物信息学等领域。它为学生和研究人员提供了一个真实的、具有挑战性的数据集,用于测试和比较各种分类算法的性能。
临床辅助诊断:通过训练机器学习模型,此数据集可以帮助开发出辅助医生进行乳腺癌诊断的工具。虽然这类工具不能替代专业医生的判断,但可以在一定程度上提高诊断的准确性和效率。
尽管此数据集是一个经典的医学数据集,但随着医疗技术和诊断方法的进步,新的数据集也在不断涌现。现代医学数据集可能包含更多样化的信息,如基因表达数据、蛋白质组学数据、患者的生活方式信息等,这些都为更深入地理解乳腺癌的发生机制和发展提供了可能性。此外,随着人工智能和大数据技术的发展,越来越多的医疗机构开始建立自己的电子健康记录(EHR)系统,这些系统中积累的大量数据为未来的医学研究和个性化医疗带来了无限潜力。
2.数据介绍
这些特征是从每个细胞核的图像中计算出来的,数据格式为csv格式。
编号 | 变量名称 | 描述 |
1 | radius1 | 半径的平均值 |
2 | texture1 | 纹理的平均值 |
3 | perimeter1 | 周长的平均值 |
4 | area1 | 面积的平均值 |
5 | smoothness1 | 平滑度的平均值 |
6 | compactness1 | 紧致度的平均值 |
7 | concavity1 | 凹度的平均值 |
8 | concave_points1 | 凹点数量的平均值 |
9 | symmetry1 | 对称性的平均值 |
10 | fractal_dimension1 | 分维数的平均值 |
11 | radius2 | 半径的标准误差 |
12 | texture2 | 纹理的标准误差 |
13 | perimeter2 | 周长的标准误差 |
14 | area2 | 面积的标准误差 |
15 | smoothness2 | 平滑度的标准误差 |
16 | compactness2 | 紧致度的标准误差 |
17 | concavity2 | 凹度的标准误差 |
18 | concave_points2 | 凹点数量的标准误差 |
19 | symmetry2 | 对称性的标准误差 |
20 | fractal_dimension2 | 分维数的标准误差 |
21 | radius3 | 半径的最大三个值的平均 |
22 | texture3 | 纹理的最大三个值的平均 |
23 | perimeter3 | 周长的最大三个值的平均 |
24 | area3 | 面积的最大三个值的平均 |
25 | smoothness3 | 平滑度的最大三个值的平均 |
26 | compactness3 | 紧致度的最大三个值的平均 |
27 | concavity3 | 凹度的最大三个值的平均 |
28 | concave_points3 | 凹点数量的最大三个值的平均 |
29 | symmetry3 | 对称性的最大三个值的平均 |
30 | fractal_dimension3 | 分维数的最大三个值的平均 |
31 | y | 肿块是良性(B)还是恶性(M) |
数据详情如下(部分展示):
3.数据获取
关注下方 回复1005,获取。