用python写了一个简单的模拟浏览器抓取网页的库webclient

最新推荐文章于 2024-07-13 00:50:06 发布

糊糊

最新推荐文章于 2024-07-13 00:50:06 发布

阅读量6k

点赞数 1

分类专栏： Python 文章标签： python browser 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huyoo/article/details/12451009

版权

webclient是一个简洁的Python库，用于简化爬虫开发中查看HTTP请求头、cookie和POST数据。它提供了打印请求信息、解压gzip响应等功能，帮助开发者专注于数据处理，提高调试效率。尽管目前不支持http keep-alive和连接池，但已实现基本的AJAX模拟。

摘要由CSDN通过智能技术生成

为什么重新造webclient 这么个wheel

webclient, 顾名思义, 就是一个web客户端.

我写这么个东西, 主要是为了节省时间和精力, 因为urllib和urllib2一起, 使用起来, 想实现一些特定的功能, 实在是太不爽了.

比如想查看自己的爬虫到底都往外发送了哪些cookie, 发送了些什么数据, 查看服务器响应的头信息, 都特别的麻烦, 于是, 查阅N多资料, 终于把自己常用的一些需要监视的数据, 给监视起来了, 使用起来超级方便, 让我能够迅速的将关注的重点集中到"处理抓回来的数据"上, 真是使用python做爬虫的超级利器.

webclient主要对http协议过程中发送的http header和服务器返回的 http response info, 均可以print 调试(实际上我改为了 logging记录)

主要的特点:

print http request headers # 打印 http 请求头信息
print http request cookies # 打印 http 请求的时候发送的cookie信息
print http request post data # 打印 http 请求的时候发送的data( 只有 POST 请求会发送数据, GET请求, 不会发送数据)
decode gzipped response # 对服务器使用gzip传输回来的gzip数据直接解压

以上4个,均是为了解决python编写爬虫的时候, 想查看cookie和发送的数据而特意收集整理到这个简单的库中的.

通过我自己的使用和调试, 我发现这个东西真的太好用了, 帮我节省了很多调试时间. 也少写了很多代码, 我甚至觉得, 我做这个整合的事情, 可以和 request2 这个库媲美了.

使用方法示例:

from webclient import WebBrowser

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。