Python3 爬虫学习笔记（二）浏览器内核、uropen、request等

最新推荐文章于 2025-03-22 21:33:12 发布

咸甜适中

最新推荐文章于 2025-03-22 21:33:12 发布

阅读量2k

点赞数

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_30712797/article/details/84583351

版权

Python 专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了各种浏览器内核，如IE的Trident、Opera的Presto、Mozilla的Gecko等，并深入探讨了Python的Urllib模块如何进行网页请求，包括设置User-Agent、处理响应码及URL重定向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

浏览器内核 :

IE : Trident

Opera : Presto

Mozilla : Firefox ( Fecko )

Linux : KHTML ( Like Gecko )

Apple : Webkit ( Like KHTML )

Google : Chrome ( Like Webkit )

import urllib.request

urllib.request. urlopen('http:……')
request = urllib.request.Request(url,data,headers)
urllib.request.urlopen(request)

url = "http://www.baidu.com/"
request = urllib.request.Request(url,headers={"User-Agent":"2222"})     #请求头
response = urllib.request.urlopen(request)
print(response.getcode())                                   #返回响应码，200为成功
print(response.geturl())                                    #返回实际数据url（防止重定向）
print(response.info())                                      #服务器报头信息

user-agent:dddd 是爬虫和反爬虫斗争的第一步

import urllib.request
import random

user_agent_list = ['adegeg','bsgege','cgege','deggw']
user_agent = random.choice(user_agent_list)             #随机选择列表中的一项
request = urllib.request.Request("http://www.baidu.com/")
request.add_header("User-Agent",user_agent)     #添加/修改 HTTP 报头
request.get_header("User-agent")                #获取报头信息，只首字母大写