python爬虫核心技巧（仅供参考）

最新推荐文章于 2022-12-19 11:12:35 发布

拉屎忘带纸.

最新推荐文章于 2022-12-19 11:12:35 发布

阅读量869

点赞数 1

分类专栏：新手文章标签： python

本文链接：https://blog.csdn.net/htss_/article/details/121341888

版权

本文介绍了Python爬虫中常用的两个请求库——requests和urllib。对于初学者，urllib是内置的HTTP请求库，包含了request、error、parse和robotparser四个模块，可用于基础的HTTP请求、URL解析和robots.txt文件解析。requests库则是一个更易用的选择，提供更友好的API。示例代码展示了如何使用urllib进行URL编码和拼接，以实现网页的抓取。

摘要由CSDN通过智能技术生成

技巧一：请求库

请求库有：requests、selenium、urllib、aiohttp，我个人比较推荐新手小白掌握urllib和requests请求库。

urllib库

是Python内置的HTTP请求库，不需要额外安装即可使用，包含以下4个模块：

request 打开和读取 URL，最基本的HTTP请求模块，可以用来模拟发送请求

error 包含 urllib.request 抛出的异常，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止。

parse 用于解析 URL，比如拆分、解析、合并等。

robotparser 用于解析 robots.txt 文件，主要是用来识别网站的robots.txt文件，然后判断哪些网站可以爬，哪些网站不可以爬。

if__name == main :

#百度贴吧的url
url= https://tieba.baidu.comf?
#防止ip被禁,重新指定User-Agent字段信息

headers =[
'lser-Agent : Moilla/5.0 (Windows NT 10.0;Win64: x64) AppleWebKit/537.36(KHTML like Gecko) Chrome/62.0.3202.62 Safar/537.367
#通过输入关键字查询
keyword = in

最低0.47元/天解锁文章

拉屎忘带纸.

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
python爬虫核心技巧（仅供参考）

技巧一：请求库请求库有：requests、selenium、urllib、aiohttp，我个人比较推荐新手小白掌握urllib和requests请求库。urllib库是Python内置的HTTP请求库，不需要额外安装即可使用，包含以下4个模块：request打开和读取URL，最基本的HTTP请求模块，可以用来模拟发送请求error包含urllib.request抛出的异常，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止。parse用于解析UR...
复制链接

扫一扫