数据提取的概念和数据的分类
学习目标
了解 爬虫的数据的分类
1 爬虫中数据的分类
在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来又规律的提取和解析数据.
- 结构化数据:json,xml等
- 处理方式:直接转化为python类型
- 非结构化数据:HTML
- 处理方式:正则表达式、xpath
- 爬虫中数据分类之结构化数据: json,xml
- 爬虫中数据分类之非结构化数据:Html,字符串
- 结构化数据处理的方式有:jsonpath,xpath,转换python类型处理,bs4
- 非结构化数据处理方式有:正则表达式,xpath,bs4
json的数据提取
学习目标
- 掌握 json相关的方法(load loads dump dumps)
- 了解 jsonpath的使用(提取 json中的数据)
2 复习什么是json
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。
3 json模块中方法的学习
其中类文件对象的理解:
具有read()或者write()方法的对象就是类文件对象,比如f = open(“a.txt”,”r”) f就是类文件对象
具体使用方法:
import json
mydict = {
"store": {
"book": [
{"category": "reference",
"author": "Nigel Rees",
"title": &