#良恶性肿瘤预处理
import numpy as np
import pandas as pd
#创建特征列表
column_names=['Sample code number',\
'Clump Thickness',\
'Uniformity of Cell Size',\
'Uniformity of Cell Shape',\
'Marginal Adhesion',\
'Single Epithelial Cell Size',\
'Bare Nuclei','Bland Chromatin',\
'Normal Nucleoli','Mitoses','Class']
#从互联网读取相关数据
df=pd.read_csv(r'https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data',\
names=column_names)
#把?替换为标准缺失值表示
df=df.replace('?',np.nan)
#丢弃带有缺失值的数据记录(只要有一个维度含有?就删除该条记录)
df.dropna(how='any',inplace=True)
#25%的数据作为测试集,75%的数据作为训练集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(df[co
使用线性分类模型从事良/恶性肿瘤预测任务
最新推荐文章于 2023-09-01 13:38:22 发布