学习目标:认识json。
之前我们请求了网页的文本信息,今天我们来认识一种新的类型的数据——json。
我们了解一下json:
这样讲大家可能看不懂,我来补充一下。在网页的源码中,一般有三种代码,分别是html、css、JavaScript(js)。html用于构建页面,css用于对页面修饰,而JavaScript则用于运行一些操作。我们知道,在Python中要存储信息,会用到int、float、list、dictionary等来存储;而javascript也一样有很多数据要用到一些格式存储,以便运行,这些信息统称json。(另外json不仅用于JavaScript,有时还运用于其他语言)
那么json对爬虫有什么用呢?我们这里简单地了解一下:一个网页要运行一些操作,一般会用到json存储数据,比如图片网站,它存储了许许多多图片,我们把json转为Python的存储格式,遍历它找到url并逐个请求便可批量获取图片。
json一般以三种方式出现:一、以一个单独的文件的形式出现;二、在网页代码中导入;三、与文件“配套”。之后我们会讲。