Python开发进阶——数据集处理与机器学习初步

最新推荐文章于 2024-09-10 15:45:22 发布

邵华成

最新推荐文章于 2024-09-10 15:45:22 发布

阅读量2k

点赞数

分类专栏： Python笔记文章标签： python 机器学习数据挖掘

本文链接：https://blog.csdn.net/shaohuacheng/article/details/41553831

版权

本文探讨了使用Python进行机器学习，特别是针对肿瘤数据集进行分类的问题。通过对699个患者数据的分析，创建了一个简单的分类器，通过比较肿瘤属性与平均值来预测良性或恶性肿瘤。训练和测试结果显示，该分类器在340名患者中有5个误诊，表现出一定的分类效果。

摘要由CSDN通过智能技术生成

<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);"><span style="font-size:12px;">科学家将研究数据集共享给其他研究人员使用，同时也期待数据有助于解决某些重要问题。其中之一的免费资源就是加利福尼亚州欧文分校的机器学习数据仓库(http://archive.ics.uci.edu/ml)。本文采取了其中一个乳腺癌患者身上切除肿瘤的数据集(breast-cancer-wisconsin.data)，读者可自行前往下载。</span></span>

肿瘤学家研究切片组织并描述组织的各种特征，并决定肿瘤是良性还是恶性。那么本文研究的问题就确定了：基于肿瘤特征判定是恶性肿瘤还是良性肿瘤。研究数据中包括了699个患者的信息，其中包含9个肿瘤属性和患者是否最终被诊断为良性或恶性癌症的结论。诊断结果与患者ID也包含在数据集中，故每个患者即每行数据有11个值。对于未知的患者，我们希望能通过肿瘤的切片数据属性判定它是否为恶性肿瘤。

有很多方法可以解决这个问题。事实上，数据挖掘这一研究领域就是研究解决这类问题的方法。这些方法大多采用了较高层次的概念，我们要使用的就是创建一个分类器（即一个程序），输入新的样本，根据已有的样本来确定新样本的属性，即属于什么类型。

在这个问题中，分类器要使用已知类别的样本进行训练，在训练过程中，分类器寻找确定分类的模式。模式确定后，在已知类别的新样本上进行测试，从而判断分类器的准确性。

在此例中，诊断结果是对患者肿瘤属性的分类结果，每个患者信息都可用于建立一个关于模式的内部模型，模式旨在区分良性和恶性。训练好分类器后，必须要测试分类器的有效性，通过提供新患者，异或只是训练过程中没有使用的患者数据，来查看分类器的预测的诊断结果。