Python Code :不同Json文件的数据挖掘、清洗、反写

从Python爬虫爬下来的网页数据,是一堆乱码(Json格式),如何在这一对乱码中找到自己想要的数据,或者说,如何在多个文件中整合出自己想要的新的内容,然后用一个Excel表格来表示呢?

本博客通过记录一个实际问题的解决,阐述相关代码。

问题:

1、从网页上爬取下的Json格式文件包含商品名字、价格,准确找到该两项目,通过csv表格完成一个数据可视化、

2、假设网页上数据小部分有更新,重新爬取到Json格式文件;

3、挖掘出哪些变动;

4、两者规则不一样的情况下再次做数据可视化、并且和前一次做一个对比

5、重要信息(新价格)的数据清洗覆盖

Json文件层次:

data_deal文件下有data文件夹和Js文件夹:其中data放置旧信息;Js放置新信息;

data文件夹下面有Comb文件(对应旧的名字、价格);Prop文件(对应商品的系列号);

一、代码思路流程图:


二、代码解释:

# -*- coding: utf-8 -*-
import numpy
import json
import csv
import os
import os.path
import shutil
import sys
import csv

reload(sys)
sys.setdefaultencoding( "utf-8" )

count_the_right_file=0
dets=[]
sum_prop=0
sum_comp=0
num_prop=0
num_comp=0
wrong_files=[]
首先:import相关Python的工具包:简单介绍一下:json用来处理json格式的数据、os作为文件路径的相关操作、shutil在文件复制到指定路径的时候用到、csv可以非常方便的帮助我们整理数据并做一个可视化操作;

其次:定义了一些相关的列表:wrong_file用于存放数据发生改动的data文件夹中的json文件名;


  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值