数据分享:医学数据集-乳腺癌数据

说明:如需数据可以直接到文章最后关注获取。

1.数据背景   

该数据集由美国威斯康星大学医学院的医生们收集,并首次在1992年的一篇论文中被介绍。它成为了机器学习和数据挖掘领域中的经典数据集之一,广泛用于分类算法的研究和评估。

目的:帮助诊断乳房肿块是良性(Benign)还是恶性(Malignant),即是否为乳腺癌,从而辅助医疗决策。

数据采集方法

影像技术:数据集中使用的细胞核图像是通过细针抽吸活检(Fine Needle Aspiration, FNA)获取的。FNA是一种微创手术,通过细针从疑似肿瘤部位抽取少量细胞样本,然后在显微镜下对这些细胞进行观察和分析。

特征提取:从FNA得到的细胞核图像中,专家们使用特定的软件工具来测量上述提到的各种几何和纹理特征。这些特征能够反映细胞核的形态学变化,而这些变化往往与肿瘤的良性和恶性有关。

应用与影响

教育和研究:此数据集被广泛用于教学和学术研究,特别是在机器学习、数据挖掘和生物信息学等领域。它为学生和研究人员提供了一个真实的、具有挑战性的数据集,用于测试和比较各种分类算法的性能。

临床辅助诊断:通过训练机器学习模型,此数据集可以帮助开发出辅助医生进行乳腺癌诊断的工具。虽然这类工具不能替代专业医生的判断,但可以在一定程度上提高诊断的准确性和效率。

尽管此数据集是一个经典的医学数据集,但随着医疗技术和诊断方法的进步,新的数据集也在不断涌现。现代医学数据集可能包含更多样化的信息,如基因表达数据、蛋白质组学数据、患者的生活方式信息等,这些都为更深入地理解乳腺癌的发生机制和发展提供了可能性。此外,随着人工智能和大数据技术的发展,越来越多的医疗机构开始建立自己的电子健康记录(EHR)系统,这些系统中积累的大量数据为未来的医学研究和个性化医疗带来了无限潜力。  

2.数据介绍

这些特征是从每个细胞核的图像中计算出来的,数据格式为csv格式。    

编号 

变量名称

描述

1

radius1

半径的平均值

2

texture1

纹理的平均值

3

perimeter1

周长的平均值

4

area1

面积的平均值

5

smoothness1

平滑度的平均值

6

compactness1

紧致度的平均值

7

concavity1

凹度的平均值

8

concave_points1

凹点数量的平均值

9

symmetry1

对称性的平均值

10

fractal_dimension1

分维数的平均值

11

radius2

半径的标准误差

12

texture2

纹理的标准误差

13

perimeter2

周长的标准误差

14

area2

面积的标准误差

15

smoothness2

平滑度的标准误差

16

compactness2

紧致度的标准误差

17

concavity2

凹度的标准误差

18

concave_points2

凹点数量的标准误差

19

symmetry2

对称性的标准误差

20

fractal_dimension2

分维数的标准误差

21

radius3

半径的最大三个值的平均

22

texture3

纹理的最大三个值的平均

23

perimeter3

周长的最大三个值的平均

24

area3

面积的最大三个值的平均

25

smoothness3

平滑度的最大三个值的平均

26

compactness3

紧致度的最大三个值的平均

27

concavity3

凹度的最大三个值的平均

28

concave_points3

凹点数量的最大三个值的平均

29

symmetry3

对称性的最大三个值的平均

30

fractal_dimension3

分维数的最大三个值的平均

31

y

肿块是良性(B)还是恶性(M) 

数据详情如下(部分展示):

3.数据获取

关注下方   回复1005,获取。

SPSS实验报告(2) 第四章 描述性统计分析 一、实验目的 通过计算诸如样本均值、中位数、样本方差等重要基本统计量,并辅助于SPSS提供的图形功能,能够使分析者把握数据的基本特征和数据的整体分布形态,对进一步的统计推断和数据建模工作起到重要作用。并且,通过例子学习描述性统计分析及其在SPSS中的实现,包括统计量的定义及计算、频率分析、描述性分析、探索性分析、交叉表分析和多重响应分析,能够使分析者更好的掌握基本的统计分析,即单变量频数分布的编制、基本统计量的计算以及数据的探索性分析等。 二、实验内容 1.打开数据文件data4-8.sav,完成以下统计分析。 (1)计算各科成绩的描述统计量:平均成绩、中位数、众数、标准差、方差、极差、最大值和最小值; 解决问题的原理:描述性分析 实验步骤:通过"分析-描述统计-描述",打开"描述性"对话框,根据题目所需要的统计量进行设置。 结果及分析: 描述统计量 N 全距 极小值 极大值 均值 标准差 方差 成绩 45 83 15 98 60.51 23.048 531.210 有效的 N (列表状态) 45 表中分析变量"成绩"的个案数、所有个案中的极大值、极小值、均值、标准差及方差。 (2)使用Recode命令生成一个新变量"成绩段",其值为各科成绩的分段:90~100为1,80~89为2,70~79为3,60~69为4,60分以下为5,其值标签:1—优,2—良,3—中,4—及格,5—不及格。分段以后进行频数分析,统计各分数段的人数,最后生成条形图和饼图。 解决问题的原理:频率分析。 实验步骤:通过"分析-描述统计-频率",打开"频率"对话框,根据题目所需要的统计量进行设置。 SPSS实验报告(2)全文共17页,当前为第2页。SPSS实验报告(2)全文共17页,当前为第1页。 结果及分析: SPSS实验报告(2)全文共17页,当前为第2页。 SPSS实验报告(2)全文共17页,当前为第1页。 成绩 频率 百分比 有效百分比 累积百分比 有效 15 1 2.2 2.2 2.2 19 1 2.2 2.2 4.4 24 1 2.2 2.2 6.7 28 1 2.2 2.2 8.9 30 1 2.2 2.2 11.1 32 2 4.4 4.4 15.6 33 1 2.2 2.2 17.8 34 1 2.2 2.2 20.0 36 1 2.2 2.2 22.2 37 2 4.4 4.4 26.7 43 1 2.2 2.2 28.9 49 1 2.2 2.2 31.1 50 1 2.2 2.2 33.3 55 1 2.2 2.2 35.6 56 4 8.9 8.9 44.4 60 3 6.7 6.7 51.1 62 1 2.2 2.2 53.3 63 1 2.2 2.2 55.6 69 1 2.2 2.2 57.8 70 1 2.2 2.2 60.0 73 3 6.7 6.7 66.7 74 1 2.2 2.2 68.9 75 1 2.2 2.2 71.1 76 1 2.2 2.2 73.3 78 1 2.2 2.2 75.6 81 1 2.2 2.2 77.8 83 1 2.2 2.2 80.0 85 2 4.4 4.4 84.4 86 1 2.2 2.2 86.7 90 2 4.4 4.4 91.1 91 1 2.2 2.2 93.3 95 2 4.4 4.4 97.8 98 1 2.2 2.2 100.0 合计 45 100.0 100.0 表中显示了变量"成绩段"在各个取值上出现的次数(频率)、其频率占所有个案中的百分比、有效百分比及累积百分比。 表中显示了变量"成绩段"的直方图,从图上可以看出不具备明显的正态分布。 表中显示了变量"成绩段"的饼图,从图上可以更好的看出"成绩段"的分布。 2.打开数据文件data4-9.sav,完成以下统计分析。 表4.22 吸烟人群健康状况调查表是否吸烟是否患气管炎人数是患病43是健康162否患病13否健康121(1)对身高进行考察,分析四分位数,计算上奇异值、上极端值、下奇异值和下极端值,并生成茎叶图和箱图; 表4.22 吸烟人群健康状况调查表 是否吸烟 是否患气管炎 人数 是 患病 43 是 健康 162 否 患病 13 否 健康 121 解决问题的原理:探索性分析 实验步骤:通过"分析-描述统计-探索",打开"绘制"对话框,根据题目所需要的统计量进行设置。 结果及分析: 身高 Stem-and-Leaf Plot Frequency Stem & Leaf 2.00 9 . 99 16.00 10 . 0000001222333344 39.00 10 . 555555556666677778888888999999999999999 18.00
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张陈亚

您的鼓励,将是我最大的坚持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值