#0 -*- coding: UTF-8 -*-
#导入工具包,做数据预处理
import pandas as pd
import numpy as np
#创建特征列表
colum_names=['Sample code number',
'Clump Thickness',
'Uniformity of Cell Size',
'Uniformity of Cell Shape',
'Marginal Adhesion',
'Single Epithelial Cell Size',
'Bare Nuclei',
'Bland Chromatin',
'Normal Nucleoli',
'Mitoses',
'Class']
#使用pandas.read_csv()函数从互联网读取指定数据
#df_train = pd.read_csv('D:\\Python2713\\Datasets\\Breast-Cancer\\breast-cancer-train.csv')
#df_test = pd.read_csv('D:\\Python2713\\Datasets\\Breast-Cancer\\breast-cancer-test.csv')
data=pd.read_csv('D:\\Python2713\\Datasets\\wisonsin\\wisconsin.csv',names=colum_names)
data=data.replace(to_replace='?',value=np.nan)
#丢弃带有缺失值的 数据(只要有一个维度有缺失)
data=data.dropna(how='any')
#输出data的数据量和维度
print data.shape
01-《机器学习及实践》学习之数据预处理
最新推荐文章于 2020-10-19 16:47:32 发布