从Python爬虫爬下来的网页数据,是一堆乱码(Json格式),如何在这一对乱码中找到自己想要的数据,或者说,如何在多个文件中整合出自己想要的新的内容,然后用一个Excel表格来表示呢?
本博客通过记录一个实际问题的解决,阐述相关代码。
问题:
1、从网页上爬取下的Json格式文件包含商品名字、价格,准确找到该两项目,通过csv表格完成一个数据可视化、
2、假设网页上数据小部分有更新,重新爬取到Json格式文件;
3、挖掘出哪些变动;
4、两者规则不一样的情况下再次做数据可视化、并且和前一次做一个对比;
5、重要信息(新价格)的数据清洗、覆盖。
Json文件层次:
data_deal文件下有data文件夹和Js文件夹:其中data放置旧信息;Js放置新信息;
data文件夹下面有Comb文件(对应旧的名字、价格);Prop文件(对应商品的系列号);
一、代码思路流程图:
二、代码解释:
# -*- coding: utf-8 -*-
import numpy
import json
import csv
import os
import os.path
import shutil
import sys
import csv
reload(sys)
sys.setdefaultencoding( "utf-8" )
count_the_right_file=0
dets=[]
sum_prop=0
sum_comp=0
num_prop=0
num_comp=0
wrong_files=[]
其次:定义了一些相关的列表:wrong_file用于存放数据发生改动的data文件夹中的json文件名;