1.接下来我们将使用朴素贝叶斯算法来进行一个小的项目实战——判断一个患者的肿瘤是良性还是恶性。这里我们将使用一个来自真实世界的数据集——威斯康星乳腺肿瘤数据集。
2.对数据集进行分析:
威斯康星乳腺肿瘤数据集是一个非常经典的用于医疗病情分析的数据集,它包括569个病例的数据样本,每个样本具有30个特征值,而样本共分为两类:分别是恶性和良性。
from sklearn.datasets import load_breast_cancer
cancer=load_breast_cancer()
from sklearn.model_selection import train_test_split
X,y=cancer.data,cancer.target
X_train,<