第一关是算是入门级的操作了。唯一比较麻烦的是,你直接用requests获取url的响应数据是不行的,网站要求你登录。
这个时候我们一般有两种方法,一种是手动在Headers头部信息里添加Cookie,另一种是使用selenium自动化登录网页。
Cookie:自行去浏览器里的Headers里复制粘贴到*处。
import requests
url='http://www.glidedsky.com/level/web/crawler-basic-1'
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36',
'Cookie': '***'