爬虫数据的分类和json数据提取

最新推荐文章于 2024-04-25 15:45:00 发布

Benjamin丶

最新推荐文章于 2024-04-25 15:45:00 发布

阅读量2.3k

点赞数

本文链接：https://blog.csdn.net/weixin_42653470/article/details/81038779

版权

数据提取的概念和数据的分类

学习目标

了解爬虫的数据的分类

1 爬虫中数据的分类

在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来又规律的提取和解析数据.

结构化数据：json，xml等
- 处理方式：直接转化为python类型
非结构化数据：HTML
- 处理方式：正则表达式、xpath

爬虫中数据分类之结构化数据: json,xml
爬虫中数据分类之非结构化数据:Html,字符串
结构化数据处理的方式有:jsonpath,xpath,转换python类型处理,bs4
非结构化数据处理方式有:正则表达式,xpath,bs4

json的数据提取

学习目标

掌握 json相关的方法(load loads dump dumps)
了解 jsonpath的使用(提取 json中的数据)

2 复习什么是json

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

3 json模块中方法的学习

其中类文件对象的理解：

具有read()或者write()方法的对象就是类文件对象，比如f = open(“a.txt”,”r”) f就是类文件对象

具体使用方法：

import json

mydict = {
    "store": {
        "book": [
            {"category": "reference",
             "author": "Nigel Rees",
             "title": &

最低0.47元/天解锁文章

Benjamin丶

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
爬虫数据的分类和json数据提取

数据提取的概念和数据的分类学习目标了解爬虫的数据的分类1 爬虫中数据的分类在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来又规律的提取和解析数据.结构化数据：json，xml等处理方式：直接转化为python类型非结构化数据：HTML处理方式：正则表达式、xpath爬虫中数据分类之结构化数据: json,xml爬虫中数据分类之非结构化数据:Html,字符串结构化数据处理的方式...
复制链接

扫一扫