python数据清洗csv_Python数据清理之解析CSV文件

一不小心,1月份留下来的坑都两三个月了,荒草萋萋。Udacity数据分析专题已经进行到P3,但是笔记都没怎么记录。每当忘记之前的内容时,一页页重看视频真的是很耗费时间和精力,不如把视频整理成文字,哪怕是贴图!

既然是数据分析,首先要有数据。如果手头有现成的Clean数据,那是最省事儿的,直接可以进入分析阶段。但是现实中往往没有,所以需要从各种途径收集,提取需要的数据,并进行清理存储。也即如下流程:

1097492-20170409205152410-678541661.png

对于从各种途径收集到的数据(表格形式、CSV、Jason、XML等格式),我们并不建议就这样直接展开分析,因为并不能保证这些数据的质量。所以先评估一下。其方法有以下几种:

1097492-20170409205215910-901091246.png

1097492-20170409205230472-1950200086.png

表格形式我们比较熟悉,如Excel、googlesheet等,每一行代表一条记录,每一列表示一个字段,这里不多说。接下来说说CSV格式。

CSV,即Comma-Separated Values,(一般)以逗号分隔。CSV比较轻便,每行一条记录,每条记录被分隔符分割为不同的字段,纯文本格式方便读写。

1097492-20170409205309957-199890065.png

用Python解析CSV文件

Python解析CSV文件主要是以字典的形式存储。

1097492-20170409205352925-1516031390.png

1097492-20170409205409847-1242350113.png

1097492-20170409205432894-794266784.png

1097492-20170409205448003-928342426.png

1097492-20170409205505347-1826362494.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值