爬虫请求头
网页获取:
通过urlopen来进行获取
requset.urlopen(url,data,timeout)
第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。
第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要加入的,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面
from urllib.request import urlopen
url = "https://www.baidu.com/"
respons = urlopen(url)#最简单的爬取情况这样爬取大部分网页无法爬取成功
response对象:
response.read()
read()方法就是读取文件里的全部内容,返回bytes类型
print(type(respons.read()))#结果为bytes类型所以需要进行转码
print(type(respons.read().decode()))#通过decode转码结果为str
response.getcode()
返回 HTTP的响应码,成功返回200,4服务器页面出错,5服务器问题
response.geturl()
返回 返回实际数据的实际URL,防止重定向问题
response.info()
返回 服务器响应的HTTP报头
Request对象
<