抓取网页效果图(代码在最后):
基础知识认识
首先导入所需要的库
from fake_useragent import UserAgent#头部库
from urllib.request import Request,urlopen#请求和打开
from urllib.parse import quote#转码
from urllib.parse import urlencode#转码
先获取一个简单的网页
url = "https://www.baidu.com/?tn=02003390_43_hao_pg" #获取一个网址
response = urlopen(url)#将网址打开
info = response.read()#读取网页内容
info.decode()#将其转码,utf-8
小知识
response.getcode() #查看状态码
response.geturl() #查看当前网址
response.info() #返回服务器想赢的HTTP报头
随机获取一个头部
导入专用库
from fake_useragent import UserAgent#头部库
UserAgent().random
ua.choram#这两种都可以
就可以随机获得一个头部。
将头部添加到headers中
首先将随机获得的头部保存在headers中
headers = {
"User-Agent":UserAgent()