数据分类
非结构化的数据: html等
处理方法: 正则表达式、xpath
结构化数据: json,xml等
处理方法: 转化为Python数据类型
由于把json数据转化为Python内建数据类型很简单,所以爬虫中,如果我们能够找到返回json数据的URL,就会尽量使用这种URL
JSON
JSON是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。
JSON字符串与Python字符串之间的转换
json.loads()
json.dumps()
具有read()或者write()方法的对象就是类文件对象f=open(“a.txt”,“r”)就是类文件对象
JSON语法法则
JSON是一个标记符的序列。这套标记符包含六个构造字符、字符串、数字和三个字面名。
JSON是一个序列化的对象或数组。
-
六个构造字符:
begin-array = ws %x5B ws ; [ 左方括号<