Python Code ：不同Json文件的数据挖掘、清洗、反写

最新推荐文章于 2024-07-28 03:36:52 发布

Errors_In_Life

最新推荐文章于 2024-07-28 03:36:52 发布

阅读量3.7k

点赞数 2

分类专栏： Python，数据挖掘，数据分析文章标签： Python 数据挖掘数据分析

本文链接：https://blog.csdn.net/Errors_In_Life/article/details/71968489

版权

本文介绍了如何使用Python从Json文件中挖掘、清洗数据，并进行对比分析。针对从网页爬取的Json格式商品数据，通过CSV进行数据可视化，并详细描述了在数据有更新时的处理流程，包括识别变化、数据清洗和覆盖。

摘要由CSDN通过智能技术生成

从Python爬虫爬下来的网页数据，是一堆乱码(Json格式)，如何在这一对乱码中找到自己想要的数据，或者说，如何在多个文件中整合出自己想要的新的内容，然后用一个Excel表格来表示呢？

本博客通过记录一个实际问题的解决，阐述相关代码。

问题：

1、从网页上爬取下的Json格式文件包含商品名字、价格，准确找到该两项目，通过csv表格完成一个数据可视化、

2、假设网页上数据小部分有更新，重新爬取到Json格式文件；

3、挖掘出哪些变动；

4、两者规则不一样的情况下再次做数据可视化、并且和前一次做一个对比；

5、重要信息（新价格）的数据清洗、覆盖。

Json文件层次：

data_deal文件下有data文件夹和Js文件夹：其中data放置旧信息；Js放置新信息；

data文件夹下面有Comb文件（对应旧的名字、价格）；Prop文件（对应商品的系列号）；

一、代码思路流程图：

二、代码解释：

# -*- coding: utf-8 -*-
import numpy
import json
import csv
import os
import os.path
import shutil
import sys
import csv

reload(sys)
sys.setdefaultencoding( "utf-8" )

count_the_right_file=0
dets=[]
sum_prop=0
sum_comp=0
num_prop=0
num_comp=0
wrong_files=[]

首先：import相关Python的工具包：简单介绍一下：json用来处理json格式的数据、os作为文件路径的相关操作、shutil在文件复制到指定路径的时候用到、csv可以非常方便的帮助我们整理数据并做一个可视化操作；

其次：定义了一些相关的列表：wrong_file用于存放数据发生改动的data文件夹中的json文件名；