从零开始天池新人离线赛-数据预处理

作为一个数据挖掘和Python编程的双面小白,从零就真的是从一张白纸开始了。


今天,首先学习怎么将阿里给我们的CSV文件导入到Python中;

import csv
itemcsv = file('d:/test/item.csv','rb')
r1 = csv.reader(itemcsv)
到这步为止,初步将该item.csv导入了Python中;
接下来,如果想要打印这些数据,只需要以下即可。

for line in r1:
    print line
itemcsv.close()

但这肯定没达到我们想要的结果,至少我们需要将CSV里的数据,以逗号为分割,将之存入一定的数据结构中

这时候就需要借助numpy工具了;

import numpy as np
data = np.genfromtxt(item,delimiter=',',skip_header=1)
这样数据就在data结构里面了,data的具体用法和Python里的列表相同,查看具体结果如下:

此时,发现所有中间列的脱敏处理后的地理信息的字符串并没有存入data中;

查阅资料可知,需要修改genfromtxt中的参数,

data = np.genfromtxt(item,delimiter=',',skip_header=1,dtype=str)

这样,三列的内容就被全部保存在data变量中了。


阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/jackaroo_zyz1/article/details/72716618
下一篇tensorflow--安装注意事项(windows)
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭