Python爬虫——数据提取
一、json格式
1.1json字符串转python数据格式
json.loads()
- 将json字符转换为Python类型
json.loads(json字符串)
1.2python数据格式转json字符串
json.dumps
- 把python类型转换为json字符串
json.dumps({})
json.dumps(ret1, ensure_ascii=False, indent=2)
ensure_ascii
:是否将中文转换为ASCII码,默认为Trueindent
:让下一行在上一行的基础上空指定位置
二、xpath和lxml
2.1xpath
一门从html中提取数据的语言
2.1.1xpath语法
-
xpath helper插件:帮助我们从
elements
中定位数据 -
选择节点(标签)
/
:选中指定的标签//