爬虫数据的分类和json数据提取

数据提取的概念和数据的分类

学习目标

了解 爬虫的数据的分类


1 爬虫中数据的分类

在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来又规律的提取和解析数据.

  • 结构化数据:json,xml等
    • 处理方式:直接转化为python类型
  • 非结构化数据:HTML
    • 处理方式:正则表达式、xpath
  1. 爬虫中数据分类之结构化数据: json,xml
  2. 爬虫中数据分类之非结构化数据:Html,字符串
  3. 结构化数据处理的方式有:jsonpath,xpath,转换python类型处理,bs4
  4. 非结构化数据处理方式有:正则表达式,xpath,bs4

json的数据提取

学习目标
  1. 掌握 json相关的方法(load loads dump dumps)
  2. 了解 jsonpath的使用(提取 json中的数据)

2 复习什么是json

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。

3 json模块中方法的学习


其中类文件对象的理解:

具有read()或者write()方法的对象就是类文件对象,比如f = open(“a.txt”,”r”) f就是类文件对象

具体使用方法:

import json

mydict = {
    "store": {
        "book": [
            {"category": "reference",
             "author": "Nigel Rees",
             "title": &
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值