代码修改
实践(一)代码总的运行时间为3800seconds左右,实在是烂到不行,不忍直视。这几天正好开始进行《利用python进行数据分析》这本书的学习,于是尝试着对实践(一)的代码的数据导入与数据重建部分的代码进行了修改,效果拔群,运行时间由惨不忍睹的3800seconds降到11seconds左右,特此记录。
# 数据导入
path = 'feiche.json'
aa = open(path).readlines()
records = [json.loads(line) for line in aa if is_json(line)]
frame = pd.DataFrame(records)
# 提取数据中的‘header’和‘event’,组成新的数据框
frame_temp = frame[['header','event']]
# 清理数据并重置index
clean_event = frame_temp.dropna(how='any').reset_index(drop='True')
# 数据重建
new_data = []
for i in range(len(clean_event)):
m2 = clean_event['header'][i]['m2']
event = clean_event['event'][i]
new_data.append([dict(temp,Session=k, m2=m2) for k,v in event.items() for temp in v])
# 数据平铺
data = [item for record in new_data for item in record]
# 数据重建和缺失值填充
df = pd.DataFrame(data).fillna('')
以前的代码就不贴过来对比了,反正就是代码简洁清晰了很多,花费时间大大降低。