Yelp dataset原始数据集下载地址为:https://www.yelp.com/dataset/documentation/main
本人用到的两个数据集为yelp_photos.tar和yelp_dataset.tar,两个压缩包加一块大约10.3GB。
在GitHub上浏览基于yelp dataset数据集做的推荐系统项目时,发现人们用csv格式的数据集处理数据更加方便。而在GitHub上找到的json转csv的代码并不能达到理想转换效果,于是自己编写了jsontocsv_business.py和jsontocsv_review.py程序,此处贡献前者与大家交流学习。
import csv
import json
import sys
import os
import pandas as pd
import numpy as np
json_file_path='/home/yelp_dataset/business.json'
csv_file_path='/home/yelp_dataset/business.csv'
#打开business.json文件,取出第一行列名
with open(json_file_path,'r',encoding='utf-8') as fin:
for line in fin:
line_contents = json.loads(line)
headers=line_contents.keys()
break
print