Python3 爬虫学习笔记(二)浏览器内核、uropen、request等

本文详细介绍了各种浏览器内核,如IE的Trident、Opera的Presto、Mozilla的Gecko等,并深入探讨了Python的Urllib模块如何进行网页请求,包括设置User-Agent、处理响应码及URL重定向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

浏览器内核 :

        IE : Trident

        Opera : Presto

        Mozilla : Firefox ( Fecko )

        Linux : KHTML ( Like Gecko )

        Apple : Webkit ( Like KHTML )

        Google : Chrome ( Like Webkit )

import urllib.request

urllib.request. urlopen('http:……')
request = urllib.request.Request(url,data,headers)
urllib.request.urlopen(request)

url = "http://www.baidu.com/"
request = urllib.request.Request(url,headers={"User-Agent":"2222"})     #请求头
response = urllib.request.urlopen(request)
print(response.getcode())                                   #返回响应码,200为成功
print(response.geturl())                                    #返回实际数据url(防止重定向)
print(response.info())                                      #服务器报头信息


user-agent:dddd      是爬虫和反爬虫斗争的第一步

import urllib.request
import random

user_agent_list = ['adegeg','bsgege','cgege','deggw']
user_agent = random.choice(user_agent_list)             #随机选择列表中的一项
request = urllib.request.Request("http://www.baidu.com/")
request.add_header("User-Agent",user_agent)     #添加/修改 HTTP 报头
request.get_header("User-agent")                #获取报头信息,只首字母大写

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值