01-《机器学习及实践》学习之数据预处理

最新推荐文章于 2020-10-19 16:47:32 发布

千码君2016

最新推荐文章于 2020-10-19 16:47:32 发布

阅读量342

点赞数

分类专栏：机器学习人工智能 python 文章标签： machine learning Python

本文链接：https://blog.csdn.net/shunzi2016/article/details/79632407

版权

python 同时被 3 个专栏收录

118 篇文章 1 订阅

订阅专栏

机器学习

7 篇文章 0 订阅

订阅专栏

人工智能

3 篇文章 0 订阅

订阅专栏

#0 -*- coding: UTF-8 -*-
#导入工具包，做数据预处理
import pandas as pd
import numpy as np

#创建特征列表
colum_names=['Sample code number',
             'Clump Thickness',
             'Uniformity of Cell Size',
             'Uniformity of Cell Shape',
             'Marginal Adhesion',
             'Single Epithelial Cell Size',
             'Bare Nuclei',
             'Bland Chromatin',
             'Normal Nucleoli',
             'Mitoses',
             'Class']


#使用pandas.read_csv()函数从互联网读取指定数据
#df_train = pd.read_csv('D:\\Python2713\\Datasets\\Breast-Cancer\\breast-cancer-train.csv')
#df_test = pd.read_csv('D:\\Python2713\\Datasets\\Breast-Cancer\\breast-cancer-test.csv')
data=pd.read_csv('D:\\Python2713\\Datasets\\wisonsin\\wisconsin.csv',names=colum_names)
data=data.replace(to_replace='?',value=np.nan)
#丢弃带有缺失值的 数据（只要有一个维度有缺失）
data=data.dropna(how='any')
#输出data的数据量和维度
print data.shape