乳腺癌威斯康星州(原始)数据集下载链接:
UCI Machine Learning Repository
前言
数据集下载下来之后会有很多文件
为了方便理解,请看大纲图
其实很清晰(虽然我一开始没看懂),
其中一共包括了三个数据集
data文件里面是数据
names文件里面有详细的数据来源信息,以及数据意义介绍和信息备注。
其实在names文件里面看数据信息备注会更加清晰明了,但是为了方便我整理了一下,其中names文件中的截图也放在文章中。
Index
数据库生成时间
附图:
Unformatted-data
Olvi Mangasarian提供的原始数据库的格式不同于乳腺癌wisconsin.data下的原始数据库,后者仅包含1992年7月15日提供的完整数据集。特别是,数据被分成若干组,每个组前面都有一些文件。我把这些信息保存在这里,以防您需要更多详细信息。
一共698条数据,分为8组,是不同时间记录下的数据
附图:
Breast-cancer-wisconsin.data
该数据集包含699条记录,每条记录描述了一个乳腺肿块的特征。每个特征的取值范围为 1 - 10,表示特征的严重程度或异常程度。
数据集的每条记录按以下顺序排列,每一列分别代表不同的特征:
- 样本编号(Sample code number):唯一标识每个样本的编号(不作为特征用于训练模型)。
- 肿块厚度(Clump Thickness)
- 细胞大小的一致性(Uniformity of Cell Size)
- 细胞形状的一致性(Uniformity of Cell Shape)
- 边缘粘附(Marginal Adhesion)
- 单个上皮细胞大小(Single Epithelial Cell Size)
- 裸核(Bare Nuclei)
- 平滑染色质(Bland Chromatin)
- 正常核仁(Normal Nucleoli)
- 有丝分裂(Mitoses)
分类标签(Class):2(良性)或 4(恶性)
附图:
Wdbc.data
这是一个乳腺癌数据集的摘要,包含569个实例和32个属性,其中包括一个ID号、一个诊断结果(M代表恶性,B代表良性),以及30个实值输入特征。
每个细胞核的十个特征是通过以下方法计算的:
- 半径(从中心到周边点的平均距离),
- 纹理(灰度值的标准差),
- 周长,
- 面积,
- 平滑度(半径长度的局部变化),
- 紧密度(周长的平方/面积 - 1.0),
- 凹陷度(轮廓凹陷部分的严重程度),
- 凹陷点数(轮廓凹陷部分的数量),
- 对称性,
- 分形维数("coastline approximation" - 1),
每个图像的这些特征分别计算了平均值、标准误差和“最差”或最大的三个值的平均值,共得出30个特征。例如,第3个字段是平均半径,第13个字段是半径标准误差,第23个字段是最差半径。
所有特征值都用四位有效数字记录。数据集中没有缺失值,分类分布为357个良性和212个恶性。
为了方便起见,按照顺序整理了每条记录的数据意义:
数据集的每条记录按以下顺序排列,每一列分别代表不同的特征:
- 样本编号(ID number):唯一标识每个样本的编号(不作为特征用于训练模型)。
- 诊断(Diagnosis):M(恶性)或 B(良性)
- 平均半径(Mean Radius)
- 平均纹理(Mean Texture)
- 平均周长(Mean Perimeter)
- 平均面积(Mean Area)
- 平均平滑度(Mean Smoothness)
- 平均紧密度(Mean Compactness)
- 平均凹陷度(Mean Concavity)
- 平均凹陷点数(Mean Concave Points)
- 平均对称性(Mean Symmetry)
- 平均分形维数(Mean Fractal Dimension)
- 半径标准误差(Radius SE)
- 纹理标准误差(Texture SE)
- 周长标准误差(Perimeter SE)
- 面积标准误差(Area SE)
- 平滑度标准误差(Smoothness SE)
- 紧密度标准误差(Compactness SE)
- 凹陷度标准误差(Concavity SE)
- 凹陷点数标准误差(Concave Points SE)
- 对称性标准误差(Symmetry SE)
- 分形维数标准误差(Fractal Dimension SE)
- 最差半径(Worst Radius)
- 最差纹理(Worst Texture)
- 最差周长(Worst Perimeter)
- 最差面积(Worst Area)
- 最差平滑度(Worst Smoothness)
- 最差紧密度(Worst Compactness)
- 最差凹陷度(Worst Concavity)
- 最差凹陷点数(Worst Concave Points)
- 最差对称性(Worst Symmetry)
- 最差分形维数(Worst Fractal Dimension)
附图:
Wpbc.data
该数据集包含198条记录,每条记录描述了一个乳腺肿块的特征。每个特征的取值为实值,表示特征的测量结果。
数据集的每条记录按以下顺序排列,每一列分别代表不同的特征:
1. 样本编号(ID number):唯一标识每个样本的编号(不作为特征用于训练模型)。
2. 结果(Outcome):R(复发)或 N(未复发)
3. 时间(Time):如果第2列为R,则表示复发时间;如果第2列为N,则表示无病时间。
4.- 33. 每个细胞核计算出的十个实值特征:
- 半径(Radius):从中心到周边点的平均距离
- 纹理(Texture):灰度值的标准差
- 周长(Perimeter)
- 面积(Area)
- 平滑度(Smoothness):半径长度的局部变化
- 紧密度(Compactness):周长的平方/面积 - 1.0
- 凹陷度(Concavity):轮廓凹陷部分的严重程度
- 凹陷点数(Concave Points):轮廓凹陷部分的数量
- 对称性(Symmetry)
- 分形维数(Fractal Dimension):"coastline approximation" - 1
-
(**这些特征的详细计算方法在多篇文献中有描述。每个图像分别计算了这些特征的平均值、标准误差和“最差”或最大的三个值的平均值,共得出30个特征。例如,第4个字段是平均半径,第14个字段是半径标准误差,第24个字段是最差半径。4-33列的特征值均以四位有效数字记录。**)
34. 肿瘤大小(Tumor size):切除肿瘤的直径,单位为厘米
35. 淋巴结状态(Lymph node status):手术时观察到的阳性腋窝淋巴结数量
数据集中缺失属性值:4个病例中缺少淋巴结状态。
分类标签的分布为151个未复发和47个复发。
为了方便起见,按照顺序整理了每条记录的数据意义:
数据集的每条记录按以下顺序排列,每一列分别代表不同的特征:
- 样本编号(ID number):唯一标识每个样本的编号(不作为特征用于训练模型)。
- 结果(Outcome):R(复发)或 N(无复发)
- 时间(Time):如果结果是R,则表示复发时间;如果结果是N,则表示无病生存时间
- 平均半径(Mean Radius)
- 平均纹理(Mean Texture)
- 平均周长(Mean Perimeter)
- 平均面积(Mean Area)
- 平均平滑度(Mean Smoothness)
- 平均紧密度(Mean Compactness)
- 平均凹陷度(Mean Concavity)
- 平均凹陷点数(Mean Concave Points)
- 平均对称性(Mean Symmetry)
- 平均分形维数(Mean Fractal Dimension)
- 半径标准误差(Radius SE)
- 纹理标准误差(Texture SE)
- 周长标准误差(Perimeter SE)
- 面积标准误差(Area SE)
- 平滑度标准误差(Smoothness SE)
- 紧密度标准误差(Compactness SE)
- 凹陷度标准误差(Concavity SE)
- 凹陷点数标准误差(Concave Points SE)
- 对称性标准误差(Symmetry SE)
- 分形维数标准误差(Fractal Dimension SE)
- 最差半径(Worst Radius)
- 最差纹理(Worst Texture)
- 最差周长(Worst Perimeter)
- 最差面积(Worst Area)
- 最差平滑度(Worst Smoothness)
- 最差紧密度(Worst Compactness)
- 最差凹陷度(Worst Concavity)
- 最差凹陷点数(Worst Concave Points)
- 最差对称性(Worst Symmetry)
- 最差分形维数(Worst Fractal Dimension)
- 肿瘤大小(Tumor Size):切除肿瘤的直径,单位为厘米
- 淋巴结状态(Lymph Node Status):手术时观察到的阳性腋窝淋巴结数量
附图: