本文主要介绍的是如何利用pandas来读取CVS格式的数据
CVS格式指的是:每个元素之间均已逗号隔开,不管文件后缀名是什么,例如.txt,.data等等
如
#x.txt
1,2,3
4,5,6
----------------------------------------------------------
column_name=['A','B','C']
t=pd.read_csv('./x.txt',names=column_name)
print t
>>
A B C
0 1 2 3
1 4 5 6
1.导入pandas包
import pandas as pd
2.利用read_csv函数读取
train=pd.read_csv('./Datasets/Breast-Cancer/breast-cancer-train.csv')
test=pd.read_csv('./Datasets/Breast-Cancer/breast-cancer-test.csv')
print np.shape(train)
print type(train)
>> (175,4)
>> <class 'pandas.core.frame.DataFrame'>
读取后的数据保存在train中,但其数据类型不是我们常用的array或者array;此时可以用np.array(train)强制转换成array类型,之后的操作就同矩阵操作一样了。