第1关:获取超文本文件并保存至本地
任务描述
本关任务:本关我们将使用Python程序,实现通过网页的url,获得服务器返回的超文本文件,并保存为文本文件。
相关知识
为了完成本关任务,你需要掌握:1.requests基本操作,2.文本文件操作。
requests基本操作
requests就是一个基于网络请求的模块,可以用来模拟浏览器发请求。
使用方法:
import requests
res = requests.get(url, params=params, headers=headers)
参数说明:
url :需要抓取的 URL 地址;
params : 网址带参请求的方法,字典类型;
headers : 请求头。
以爬取百度首页为例:
url = ‘https://www.baidu.com/’
response = requests.get(url)
response.encoding#返回响应数据原始的编码格式
response.encoding = ‘utf-8’
html = response.text
在请求网页爬取的时候,输出的text信息中会出现抱歉,无法访问等字眼,这就是禁止爬取,需要通过反爬机制去解决这个问题。headers参数是解决requests请求反爬的方法之一。
以爬取简书首页为例:
import requests
headers={‘cookie’: ‘_ya