从零开始天池新人离线赛-数据预处理

原创 2017年05月24日 21:28:38

作为一个数据挖掘和Python编程的双面小白,从零就真的是从一张白纸开始了。


今天,首先学习怎么将阿里给我们的CSV文件导入到Python中;

import csv
itemcsv = file('d:/test/item.csv','rb')
r1 = csv.reader(itemcsv)
到这步为止,初步将该item.csv导入了Python中;
接下来,如果想要打印这些数据,只需要以下即可。

for line in r1:
    print line
itemcsv.close()

但这肯定没达到我们想要的结果,至少我们需要将CSV里的数据,以逗号为分割,将之存入一定的数据结构中

这时候就需要借助numpy工具了;

import numpy as np
data = np.genfromtxt(item,delimiter=',',skip_header=1)
这样数据就在data结构里面了,data的具体用法和Python里的列表相同,查看具体结果如下:

此时,发现所有中间列的脱敏处理后的地理信息的字符串并没有存入data中;

查阅资料可知,需要修改genfromtxt中的参数,

data = np.genfromtxt(item,delimiter=',',skip_header=1,dtype=str)

这样,三列的内容就被全部保存在data变量中了。


版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/jackaroo_zyz1/article/details/72716618

天池初体验——新人实战赛之[离线赛]

写在开头:本篇博文的适用对象为对天池比赛完全不知如何下手的小伙伴。本文将从头开始记录如何最简单地整理数据、提取特征,再建立模型或者使用人工规则进行预测,然后选出数据并提交,最后得到结果。所以,本文并不...
  • wy250229163
  • wy250229163
  • 2016年11月05日 16:13
  • 5188

天池新人实战赛-阿里移动推荐算法大赛(离线赛与平台赛)

平台赛最终成绩5/1629,算是没辜负我这10天的付出吧。。。我要去玩有奖金的了0.0 想快速入门,请戳这:机器学习入门----以阿里移动推荐算法大赛为例(较详细) 竞赛题目 (离线赛与平台赛题目一样...
  • Dr_Guo
  • Dr_Guo
  • 2016年04月13日 17:04
  • 10113

从零开始天池新人离线赛-数据预处理

作为一个数据挖掘和Python编程的双面小白,从零就真的是从一张白纸开始了。 今天,首先学习怎么将阿里给我们的CSV文件导入到Python中; import csv itemcsv = f...
  • jackaroo_zyz1
  • jackaroo_zyz1
  • 2017年05月24日 21:28
  • 992

天池新人实战赛----阿里移动推荐算法大赛(御膳房、DTPAI----ODPS初体验)

几个名词: ODPS(OpenData Processing Service):开放数据处理服务由阿里云自主研发,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智...
  • Dr_Guo
  • Dr_Guo
  • 2016年04月12日 18:18
  • 2604

天池新人实战赛之[离线赛]尝试(二)

上一篇文章已经将基本思路列出,现在已经根据第一篇文中的数据预处理方案处理出一个训练数据表训练数据11.22~11.27U-I集合行为数据对应的大数据表名: temp_fin.temp_tianchi_...
  • sinat_17697111
  • sinat_17697111
  • 2018年04月13日 13:41
  • 29

天池离线赛 - 移动推荐算法(三):特征构建

本文讨论如何进行特征构建,为之后基于模型的方法提供有效的数据支持。
  • Snoopy_Yuan
  • Snoopy_Yuan
  • 2017年07月14日 13:43
  • 2676

天池离线赛 - 移动推荐算法(二):基于简单规则的预测

本文讨论如何运用一个简单的规则来进行预测,主要目的是感受一下天池赛答题评分的过程。...
  • Snoopy_Yuan
  • Snoopy_Yuan
  • 2017年06月03日 10:25
  • 1775

利用python-pandas和sklearn进行天池移动推荐离线赛的全过程

python,pandas,sklearn
  • LY_ysys629
  • LY_ysys629
  • 2017年06月30日 22:23
  • 3018

天池体验(二)——新人离线赛数据可视化分析

查看原文:http://www.wyblog.cn/2016/12/16/%e5%a4%a9%e6%b1%a0%e4%bd%93%e9%aa%8c%e4%ba%8c-%e6%96%b0%e4%ba%b...
  • wy250229163
  • wy250229163
  • 2016年12月16日 22:15
  • 1007

数据挖掘实战之天池精准医疗大赛(4)——数据分析与数据预处理

Part 3: 数据分析与数据预处理在介绍了sklearn包之后,我们正式开始大赛的流程,但是这部分不太用得到sklearn包,而是接着part1中我们对数据的分析和认识应用pandas等工具对数据进...
  • xutiantian1412
  • xutiantian1412
  • 2018年02月28日 11:15
  • 175
收藏助手
不良信息举报
您举报文章:从零开始天池新人离线赛-数据预处理
举报原因:
原因补充:

(最多只允许输入30个字)