乳腺癌威斯康星州(原始)数据集链接以及文件介绍

乳腺癌威斯康星州(原始)数据集下载链接:

UCI Machine Learning Repository

前言

数据集下载下来之后会有很多文件

为了方便理解,请看大纲图

其实很清晰(虽然我一开始没看懂),

其中一共包括了三个数据集

data文件里面是数据

names文件里面有详细的数据来源信息,以及数据意义介绍和信息备注。

其实在names文件里面看数据信息备注会更加清晰明了,但是为了方便我整理了一下,其中names文件中的截图也放在文章中。

Index

数据库生成时间

附图:

Unformatted-data

Olvi Mangasarian提供的原始数据库的格式不同于乳腺癌wisconsin.data下的原始数据库,后者仅包含1992年7月15日提供的完整数据集。特别是,数据被分成若干组,每个组前面都有一些文件。我把这些信息保存在这里,以防您需要更多详细信息。

一共698条数据,分为8组,是不同时间记录下的数据

附图:

Breast-cancer-wisconsin.data

该数据集包含699条记录,每条记录描述了一个乳腺肿块的特征。每个特征的取值范围为 1 - 10,表示特征的严重程度或异常程度。

数据集的每条记录按以下顺序排列,每一列分别代表不同的特征:

  1. 样本编号(Sample code number):唯一标识每个样本的编号(不作为特征用于训练模型)。
  2. 肿块厚度(Clump Thickness)
  3. 细胞大小的一致性(Uniformity of Cell Size)
  4. 细胞形状的一致性(Uniformity of Cell Shape)
  5. 边缘粘附(Marginal Adhesion)
  6. 单个上皮细胞大小(Single Epithelial Cell Size)
  7. 裸核(Bare Nuclei)
  8. 平滑染色质(Bland Chromatin)
  9. 正常核仁(Normal Nucleoli)
  10. 有丝分裂(Mitoses)

分类标签(Class):2(良性)或 4(恶性)

附图:

Wdbc.data

这是一个乳腺癌数据集的摘要,包含569个实例和32个属性,其中包括一个ID号、一个诊断结果(M代表恶性,B代表良性),以及30个实值输入特征。

每个细胞核的十个特征是通过以下方法计算的:  

  1. 半径(从中心到周边点的平均距离),
  2. 纹理(灰度值的标准差),
  3. 周长,
  4. 面积,
  5. 平滑度(半径长度的局部变化),
  6. 紧密度(周长的平方/面积 - 1.0),
  7. 凹陷度(轮廓凹陷部分的严重程度),
  8. 凹陷点数(轮廓凹陷部分的数量),
  9. 对称性,
  10. 分形维数("coastline approximation" - 1),

每个图像的这些特征分别计算了平均值、标准误差和“最差”或最大的三个值的平均值,共得出30个特征。例如,第3个字段是平均半径,第13个字段是半径标准误差,第23个字段是最差半径。

所有特征值都用四位有效数字记录。数据集中没有缺失值,分类分布为357个良性和212个恶性。


为了方便起见,按照顺序整理了每条记录的数据意义:

数据集的每条记录按以下顺序排列,每一列分别代表不同的特征:

  1. 样本编号(ID number):唯一标识每个样本的编号(不作为特征用于训练模型)。
  2. 诊断(Diagnosis):M(恶性)或 B(良性)
  3. 平均半径(Mean Radius)
  4. 平均纹理(Mean Texture)
  5. 平均周长(Mean Perimeter)
  6. 平均面积(Mean Area)
  7. 平均平滑度(Mean Smoothness)
  8. 平均紧密度(Mean Compactness)
  9. 平均凹陷度(Mean Concavity)
  10. 平均凹陷点数(Mean Concave Points)
  11. 平均对称性(Mean Symmetry)
  12. 平均分形维数(Mean Fractal Dimension)
  13. 半径标准误差(Radius SE)
  14. 纹理标准误差(Texture SE)
  15. 周长标准误差(Perimeter SE)
  16. 面积标准误差(Area SE)
  17. 平滑度标准误差(Smoothness SE)
  18. 紧密度标准误差(Compactness SE)
  19. 凹陷度标准误差(Concavity SE)
  20. 凹陷点数标准误差(Concave Points SE)
  21. 对称性标准误差(Symmetry SE)
  22. 分形维数标准误差(Fractal Dimension SE)
  23. 最差半径(Worst Radius)
  24. 最差纹理(Worst Texture)
  25. 最差周长(Worst Perimeter)
  26. 最差面积(Worst Area)
  27. 最差平滑度(Worst Smoothness)
  28. 最差紧密度(Worst Compactness)
  29. 最差凹陷度(Worst Concavity)
  30. 最差凹陷点数(Worst Concave Points)
  31. 最差对称性(Worst Symmetry)
  32. 最差分形维数(Worst Fractal Dimension)

附图:

Wpbc.data

该数据集包含198条记录,每条记录描述了一个乳腺肿块的特征。每个特征的取值为实值,表示特征的测量结果。

数据集的每条记录按以下顺序排列,每一列分别代表不同的特征:

1. 样本编号(ID number):唯一标识每个样本的编号(不作为特征用于训练模型)。

2. 结果(Outcome):R(复发)或 N(未复发)

3. 时间(Time):如果第2列为R,则表示复发时间;如果第2列为N,则表示无病时间。

4.- 33. 每个细胞核计算出的十个实值特征:

  • 半径(Radius):从中心到周边点的平均距离
  • 纹理(Texture):灰度值的标准差
  • 周长(Perimeter)
  • 面积(Area)
  • 平滑度(Smoothness):半径长度的局部变化
  • 紧密度(Compactness):周长的平方/面积 - 1.0
  • 凹陷度(Concavity):轮廓凹陷部分的严重程度
  • 凹陷点数(Concave Points):轮廓凹陷部分的数量
  • 对称性(Symmetry)
  • 分形维数(Fractal Dimension):"coastline approximation" - 1
  • (**这些特征的详细计算方法在多篇文献中有描述。每个图像分别计算了这些特征的平均值、标准误差和“最差”或最大的三个值的平均值,共得出30个特征。例如,第4个字段是平均半径,第14个字段是半径标准误差,第24个字段是最差半径。4-33列的特征值均以四位有效数字记录。**)

34. 肿瘤大小(Tumor size):切除肿瘤的直径,单位为厘米

35. 淋巴结状态(Lymph node status):手术时观察到的阳性腋窝淋巴结数量

数据集中缺失属性值:4个病例中缺少淋巴结状态。

分类标签的分布为151个未复发和47个复发。


为了方便起见,按照顺序整理了每条记录的数据意义:

数据集的每条记录按以下顺序排列,每一列分别代表不同的特征:

  1. 样本编号(ID number):唯一标识每个样本的编号(不作为特征用于训练模型)。
  2. 结果(Outcome):R(复发)或 N(无复发)
  3. 时间(Time):如果结果是R,则表示复发时间;如果结果是N,则表示无病生存时间
  4. 平均半径(Mean Radius)
  5. 平均纹理(Mean Texture)
  6. 平均周长(Mean Perimeter)
  7. 平均面积(Mean Area)
  8. 平均平滑度(Mean Smoothness)
  9. 平均紧密度(Mean Compactness)
  10. 平均凹陷度(Mean Concavity)
  11. 平均凹陷点数(Mean Concave Points)
  12. 平均对称性(Mean Symmetry)
  13. 平均分形维数(Mean Fractal Dimension)
  14. 半径标准误差(Radius SE)
  15. 纹理标准误差(Texture SE)
  16. 周长标准误差(Perimeter SE)
  17. 面积标准误差(Area SE)
  18. 平滑度标准误差(Smoothness SE)
  19. 紧密度标准误差(Compactness SE)
  20. 凹陷度标准误差(Concavity SE)
  21. 凹陷点数标准误差(Concave Points SE)
  22. 对称性标准误差(Symmetry SE)
  23. 分形维数标准误差(Fractal Dimension SE)
  24. 最差半径(Worst Radius)
  25. 最差纹理(Worst Texture)
  26. 最差周长(Worst Perimeter)
  27. 最差面积(Worst Area)
  28. 最差平滑度(Worst Smoothness)
  29. 最差紧密度(Worst Compactness)
  30. 最差凹陷度(Worst Concavity)
  31. 最差凹陷点数(Worst Concave Points)
  32. 最差对称性(Worst Symmetry)
  33. 最差分形维数(Worst Fractal Dimension)
  34. 肿瘤大小(Tumor Size):切除肿瘤的直径,单位为厘米
  35. 淋巴结状态(Lymph Node Status):手术时观察到的阳性腋窝淋巴结数量

附图: 

  • 25
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值