用python写了一个简单的模拟浏览器抓取网页的库webclient

webclient是一个简洁的Python库,用于简化爬虫开发中查看HTTP请求头、cookie和POST数据。它提供了打印请求信息、解压gzip响应等功能,帮助开发者专注于数据处理,提高调试效率。尽管目前不支持http keep-alive和连接池,但已实现基本的AJAX模拟。
摘要由CSDN通过智能技术生成

为什么重新造webclient 这么个wheel

webclient, 顾名思义, 就是一个web客户端.

我写这么个东西, 主要是为了节省时间和精力, 因为urllib和urllib2一起, 使用起来, 想实现一些特定的功能, 实在是太不爽了.

比如想查看自己的爬虫到底都往外发送了哪些cookie, 发送了些什么数据, 查看服务器响应的头信息, 都特别的麻烦, 于是, 查阅N多资料, 终于把自己常用的一些需要监视的数据, 给监视起来了, 使用起来超级方便, 让我能够迅速的将关注的重点集中到"处理抓回来的数据"上, 真是使用python做爬虫的超级利器.

webclient主要对http协议过程中发送的http header和服务器返回的 http response info, 均可以print 调试(实际上我改为了 logging记录)


主要的特点:

print http request headers # 打印 http 请求头信息
print http request cookies # 打印 http 请求的时候发送的cookie信息
print http request post data # 打印 http 请求的时候发送的data( 只有 POST 请求会发送数据, GET请求, 不会发送数据)
decode gzipped response # 对服务器使用gzip传输回来的gzip数据直接解压

以上4个,均是为了解决python编写爬虫的时候, 想查看cookie和发送的数据而特意收集整理到这个简单的库中的.

通过我自己的使用和调试, 我发现这个东西真的太好用了, 帮我节省了很多调试时间. 也少写了很多代码, 我甚至觉得, 我做这个整合的事情, 可以和 request2 这个库媲美了.


使用方法示例:

from webclient import WebBrowser
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值