地铁大数据挖掘之数据预处理——从原始一卡通数据提取城市地铁客流(一)

    这是很久以前写的一段代码,很简单很基础。最近突然用到,这里把它分享出来,希望可以为有需要的朋友提供帮助。

   以及欢迎阅读这一系列第二篇:地铁大数据挖掘之客流数据预处理——从原始一卡通数据提取城市地铁客流(二)


1 解压文件

    这里以上海城市开放大赛提供的数据为样例(提取码m4og),需要的朋友可以进行下载。把数据进行解压后,看到是一个个压缩文件:

    接下来,可以用下面这段代码对这些数据进行解压:

import gzip  
import os  
from datetime import datetime 
import shutil

#解压文件
def un_gz(file_name):  
    """ungz zip file"""  
    f_name = file_name.replace(".gz", "")  
    #获取文件的名称,去掉  
    g_file = gzip.GzipFile(file_name)  
    #创建gzip对象  
    open(f_name, "wb+").write(g_file.read())  
    #gzip对象用read()打开后,写入open()建立的文件中。  
    g_file.close()  
    #关闭gzip对象 

date_l=[datetime.strftime(x,'%Y%m%d') for x in list(pd.date_range('20150401','20150430'))]
file_name=[]
for x in date_l:
    filename="SPTCC-"+x+'.csv.gz'
    file_name.append(filename)
for each in file_name:
    un_gz(each)

#创建文件夹
os.mkdir('railway_data')

#将解压后的文件移至新文件夹
file_name2=[]
for x in date_l:
    filename="SPTCC-"+x+'.csv'
    file_name2.append(filename)
for each in file_name2:
    shutil.move(each,
  • 17
    点赞
  • 186
    收藏
    觉得还不错? 一键收藏
  • 42
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 42
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值