<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);"><span style="font-size:12px;">科学家将研究数据集共享给其他研究人员使用,同时也期待数据有助于解决某些重要问题。其中之一的免费资源就是加利福尼亚州欧文分校的机器学习数据仓库(http://archive.ics.uci.edu/ml)。本文采取了其中一个乳腺癌患者身上切除肿瘤的数据集(breast-cancer-wisconsin.data),读者可自行前往下载。</span></span>
肿瘤学家研究切片组织并描述组织的各种特征,并决定肿瘤是良性还是恶性。那么本文研究的问题就确定了:基于肿瘤特征判定是恶性肿瘤还是良性肿瘤。研究数据中包括了699个患者的信息,其中包含9个肿瘤属性和患者是否最终被诊断为良性或恶性癌症的结论。诊断结果与患者ID也包含在数据集中,故每个患者即每行数据有11个值。对于未知的患者,我们希望能通过肿瘤的切片数据属性判定它是否为恶性肿瘤。
有很多方法可以解决这个问题。事实上,数据挖掘这一研究领域就是研究解决这类问题的方法。这些方法大多采用了较高层次的概念,我们要使用的就是创建一个分类器(即一个程序),输入新的样本,根据已有的样本来确定新样本的属性,即属于什么类型。
在这个问题中,分类器要使用已知类别的样本进行训练,在训练过程中,分类器寻找确定分类的模式。模式确定后,在已知类别的新样本上进行测试,从而判断分类器的准确性。
在此例中,诊断结果是对患者肿瘤属性的分类结果,每个患者信息都可用于建立一个关于模式的内部模型,模式旨在区分良性和恶性。训练好分类器后,必须要测试分类器的有效性,通过提供新患者,异或只是训练过程中没有使用的患者数据,来查看分类器的预测的诊断结果。