1. 数据的分类
结构化的数据:json;xml
json模块,jsonpath模块,xpath
非结构化的数据:html
re模块,xpath
2. json模块
json_str-->python数据类型
json.loads(json_str)
python数据类型-->json_str
json.dumps(py_dict, indent=2, ensure_ascii=False)
json_str-->写入到文件中
json.load()
with open('文件名.txt', 'w') as f:
json.dump(f)
把文件中的json_str-->python数据类型变量
json.dump()
with open('文件名.txt', 'r') as f:
py_dict = json.load(json_str, f)
3. 了解jsonpath
from jsonpath import jsonpath
ret = jsonpath(py_dict. '$..xxx')
# 按照规则从python数据类型中提取数据,返回列表,如果匹配不到,则返回None
# 规则'$..xxx'表示根节点下所有名为xxx的key的值
# '$..book.title.@name' 获取全部div下的a标签的href属性的值
# '$..book.title.text()' 获