爬虫请求头
网页获取:
通过urlopen来进行获取
requset.urlopen(url,data,timeout)
第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。
第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要加入的,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面
from urllib.request import urlopen
url = "https://www.baidu.com/"
respons = urlopen(url)#最简单的爬取情况这样爬取大部分网页无法爬取成功
response对象:
response.read()
read()方法就是读取文件里的全部内容,