任务描述
本关任务:使用 session
编写爬取网页的小程序。
相关知识
为了完成本关任务,你需要掌握:cookie
与 session
的使用。
cookie 的使用
当你浏览某网站时,Web
服务器会修改修改你电脑上的 Cookies
文件,它是一个非常小的文本文件,可以记录你的用户 ID
、密码、浏览过的网页、停留的时间等信息。 当你再次来到该网站时,网站通过读取 Cookies
文件,得知你的相关信息,从而做出相应的动作,如在页面显示欢迎你的标语,或者让你不用输入 ID
、密码就直接登录等等。
下面演示如何在 requests
中使用 Cookies
, 以百度搜索为例,在开发者工具
查看请求头信息如下:
方法一: 将得到的 Cookies
信息写入请求头,模拟 GET
请求:
header = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 8.0.0; Pixel 2 XL Build/OPD1.170816.004) AppleWebKit/'
'537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Mobile Safari/537.36',
"Cookie": "BAIDUID=53B7CC4BFCDC39D2EF625C13D285429D:FG=1; BIDUPSID=53B7CC4BFCDC39D2EF625C13D285429D; "
"PSTM=15916