阿里音乐流行趋势预测大赛—浅尝辄止(二)

    本篇博文接上一篇博文浅尝辄止(一)的内容,这里主要介绍竞赛给的数据中时间戳的处理方法,时间戳是形如“1426406400”形式的一组时间计数,我们需要将其转化为正常的时分秒的形式,然后再将转化后的结果写入到csv文件当中去,最后我们得到的转换前的和转换后的文件内容形式如下:


转换后的:


从左到右的数据依次为:用户ID,歌曲ID,时间点,用户操作行为,日期,月,日,时;观察发现我们这里做的主要工作只是将Unix时间戳转化成日常形式,然后将月,日,时,截取出来,将这些数据分别对应的重新写入到csv文件当中。下面给出具体的程序,程序做了简单标注,欢迎指正!

# -*- coding: utf-8 -*-
 
import time
import pandas as pd 
import numpy
import csv
start=time.clock()


def timestamp_datetime(value):
    format = '%Y-%m-%d %H:%M:%S'         #'%Y-%m-%d %H:%M:%S'
    value = time.localtime(value)
    
    dt = time.strftime(format, value)
    return dt

def timestamp_datetime_month(value):
    format = '%m'         
    value = time.localtime(value)
    
    dtm = time.strftime(format, value)
    return dtm
def timestamp_datetime_day(value):
    format = '%d'         
    value = time.localtime(value)
    
    dtd = time.strftime(format, value)
    return dtd
def timestamp_datetime_hour(value):
    format = '%H'         
    value = time.localtime(value)
    
    dth = time.strftime(format, value)
    return dth

#t=eval('1426406400')
#T=timestamp_datetime(t)



actions=pd.read_csv('E:\\Tianchi\\Music\\mars_tianchi_user_actions.csv',nrows=1000000,header=None)



date=actions.loc[:,2]
user=actions.loc[:,0]
song=actions.loc[:,1]
act=actions.loc[:,3]
day=actions.loc[:,4]     #数据被切分出来
i=0
dt=numpy.mat(date)       #或许用list列表更方便
dt=numpy.transpose(dt)

months=[]
days=[]
hours=[]
while i<1000000:      #5652232
    #if date[i:(i+1)]=NaN:
    #   break
     
    months.append(timestamp_datetime_month(float(dt[i,0])))
    days.append(timestamp_datetime_day(float(dt[i,0])))
    hours.append(timestamp_datetime_hour(float(dt[i,0])))        #三个大列表

    T=timestamp_datetime(float(dt[i,0]))       #时间戳变换
    T=str(T)
    date.loc[i:(i+1)]=T
    i=i+1
#print date
date=list(date)
user=list(user)
song=list(song)
act=list(act)
day=list(day)

with open('E:\\Tianchi\\Music\\test.csv','wb') as myfile:
    i=0
    mywriter=csv.writer(myfile)   #实例化为mywriter 
    while i<1000000:
        mywriter.writerow([user[i],song[i],date[i],act[i],day[i],months[i],days[i],hours[i]])
        i=i+1


end=time.clock()
print 'running time is: %.3f'%(end-start)




  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值