Pycurl 使用，Request与Pycurl 性能比较

最新推荐文章于 2023-07-03 10:50:54 发布

songhao8080

最新推荐文章于 2023-07-03 10:50:54 发布

阅读量1.2k

点赞数 1

本文链接：https://blog.csdn.net/songhao8080/article/details/103670084

版权

Pycurl包是一个libcurl的Python接口，由C语言编写的，功能强大，速度快。由于pycurl的属性和方法太多了，写这篇博文记录一下pycurl的属性和方法。

正常安装

pip install pycurl
如果出现问题，可以按照系统版本搜索安装方法，比如centos7.1 安装pycurl

通用请求方法

Python

import pycurl,urllib from io import BytesIO url = 'http://www.baidu.com' headers = [ "User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3", ] data = { "cityListName":"", "trade": "" } c = pycurl.Curl() #通过curl方法构造一个对象 #c.setopt(pycurl.REFERER, 'http://www.baidu.com/') #设置referer c.setopt(pycurl.FOLLOWLOCATION, True) #自动进行跳转抓取 c.setopt(pycurl.MAXREDIRS,5) #设置最多跳转多少次 c.setopt(pycurl.CONNECTTIMEOUT, 60) #设置链接超时 c.setopt(pycurl.TIMEOUT,120) #下载超时 c.setopt(pycurl.ENCODING, 'gzip,deflate') #处理gzip内容 # c.setopt(c.PROXY,ip) # 代理 c.fp = BytesIO() c.setopt(pycurl.URL, url) #设置要访问的URL c.setopt(pycurl.HTTPHEADER,headers) #传入请求头 c.setopt(pycurl.POST, 1) c.setopt(pycurl.POSTFIELDS, urllib.urlencode(data)) #传入POST数据 c.setopt(c.WRITEFUNCTION, c.fp.write) #回调写入字符串缓存 c.perform() code = c.getinfo(c.HTTP_CODE) #返回状态码 html = c.fp.getvalue() #返回源代码 print c.getinfo(c.TOTAL_TIME)

import pycurl , urllib

from io import BytesIO

url = 'http://www.baidu.com'

headers = [

"User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3" ,

]

data = {

"cityListName" : "" ,

"trade" : ""

}

c = pycurl . Curl ( ) #通过curl方法构造一个对象

#c.setopt(pycurl.REFERER, 'http://www.baidu.com/') #设置referer

c . setopt ( pycurl . FOLLOWLOCATION , True ) #自动进行跳转抓取

c . setopt ( pycurl . MAXREDIRS , 5 ) #设置最多跳转多少次

c . setopt ( pycurl . CONNECTTIMEOUT , 60 ) #设置链接超时

c . setopt ( pycurl . TIMEOUT , 120 ) #下载超时

c . setopt ( pycurl . ENCODING , 'gzip,deflate' ) #处理gzip内容

# c.setopt(c.PROXY,ip) # 代理

c . fp = BytesIO ( )

c . setopt ( pycurl . URL , url ) #设置要访问的URL

c . setopt ( pycurl . HTTPHEADER , headers ) #传入请求头

c . setopt ( pycurl . POST , 1 )

c . setopt ( pycurl . POSTFIELDS , urllib . urlencode ( data ) ) #传入POST数据

c . setopt ( c . WRITEFUNCTION , c . fp . write ) #回调写入字符串缓存

c . perform ( )

code = c . getinfo ( c . HTTP_CODE ) #返回状态码

html = c . fp . getvalue ( ) #返回源代码

print c . getinfo ( c . TOTAL_TIME )

GET请求方法

Python

c = pycurl.Curl() #通过curl方法构造一个对象 c.setopt(pycurl.FOLLOWLOCATION, True) #自动进行跳转抓取 c.setopt(pycurl.MAXREDIRS,5) #设置最多跳转多少次 c.setopt(pycurl.CONNECTTIMEOUT, 60) #设置链接超时 c.setopt(pycurl.TIMEOUT,120) #下载超时 c.setopt(pycurl.ENCODING, 'gzip,deflate') #处理gzip内容 # c.setopt(c.PROXY,ip) # 代理 c.fp = BytesIO() c.setopt(pycurl.URL, url) #设置要访问的URL c.setopt(pycurl.USERAGENT,ua) #传入ua # c.setopt(pycurl.HTTPHEADER,self.headers) #传入请求头 c.setopt(c.WRITEFUNCTION, c.fp.write) #回调写入字符串缓存 c.perform() code = c.getinfo(c.HTTP_CODE) #返回状态码 html = c.fp.getvalue() #返回源代码

c = pycurl . Curl ( ) #通过curl方法构造一个对象

c . setopt ( pycurl . FOLLOWLOCATION , True ) #自动进行跳转抓取

c . setopt ( pycurl . MAXREDIRS , 5 ) #设置最多跳转多少次

c . setopt ( pycurl . CONNECTTIMEOUT , 60 ) #设置链接超时

c . setopt ( pycurl . TIMEOUT , 120 ) #下载超时

c . setopt ( pycurl . ENCODING , 'gzip,deflate' ) #处理gzip内容

# c.setopt(c.PROXY,ip) # 代理

c . fp = BytesIO ( )

c . setopt ( pycurl . URL , url ) #设置要访问的URL

c . setopt ( pycurl . USERAGENT , ua ) #传入ua

# c.setopt(pycurl.HTTPHEADER,self.headers) #传入请求头

c . setopt ( c . WRITEFUNCTION , c . fp . write ) #回调写入字符串缓存

c . perform ( )

code = c . getinfo ( c . HTTP_CODE ) #返回状态码

html = c . fp . getvalue ( ) #返回源代码

POST请求方法

Python

c = pycurl.Curl() #通过curl方法构造一个对象 c.setopt(pycurl.FOLLOWLOCATION, True) #自动进行跳转抓取 c.setopt(pycurl.MAXREDIRS,5) #设置最多跳转多少次 c.setopt(pycurl.CONNECTTIMEOUT, 60) #设置链接超时 c.setopt(pycurl.TIMEOUT,120) #下载超时 c.setopt(pycurl.ENCODING, 'gzip,deflate') #处理gzip内容 # c.setopt(c.PROXY,ip) # 代理 c.fp = BytesIO() c.setopt(pycurl.URL, url) #设置要访问的URL c.setopt(pycurl.USERAGENT,ua ) #传入User-Agent # c.setopt(pycurl.HTTPHEADER,headers) #传入请求头 c.setopt(pycurl.POST, 1) c.setopt(pycurl.POSTFIELDS, urllib.parse.urlencode(data)) c.setopt(c.WRITEFUNCTION, c.fp.write) #回调写入字符串缓存 c.perform() code = c.getinfo(c.HTTP_CODE) #返回状态码 html = c.fp.getvalue() #返回源代码

c = pycurl . Curl ( ) #通过curl方法构造一个对象

c . setopt ( pycurl . FOLLOWLOCATION , True ) #自动进行跳转抓取

c . setopt ( pycurl . MAXREDIRS , 5 ) #设置最多跳转多少次

c . setopt ( pycurl . CONNECTTIMEOUT , 60 ) #设置链接超时

c . setopt ( pycurl . TIMEOUT , 120 ) #下载超时

c . setopt ( pycurl . ENCODING , 'gzip,deflate' ) #处理gzip内容

# c.setopt(c.PROXY,ip) # 代理

c . fp = BytesIO ( )

c . setopt ( pycurl . URL , url ) #设置要访问的URL

c . setopt ( pycurl . USERAGENT , ua ) #传入User-Agent

# c.setopt(pycurl.HTTPHEADER,headers) #传入请求头

c . setopt ( pycurl . POST , 1 )

c . setopt ( pycurl . POSTFIELDS , urllib . parse . urlencode ( data ) )

c . setopt ( c . WRITEFUNCTION , c . fp . write ) #回调写入字符串缓存

c . perform ( )

code = c . getinfo ( c . HTTP_CODE ) #返回状态码

html = c . fp . getvalue ( ) #返回源代码

windows访问https

windows 访问https的方法，需要证书

Python

import certifi c.setopt(pycurl.CAINFO, certifi.where())

import certifi

c . setopt ( pycurl . CAINFO , certifi . where ( ) )

获取网页多重跳转之后的地址

Python

c.getinfo(pycurl.EFFECTIVE_URL) 获取网页的最终地址

1 2	c . getinfo ( pycurl . EFFECTIVE_URL ) 获取网页的最终地址

记录Cookie

Python

c.setopt(pycurl.COOKIEFILE, "cookie_file_etherscan") #读取cookie c.setopt(pycurl.COOKIEJAR, "cookie_file_etherscan") #设置cookie

c . setopt ( pycurl . COOKIEFILE , "cookie_file_etherscan" ) #读取cookie

c . setopt ( pycurl . COOKIEJAR , "cookie_file_etherscan" ) #设置cookie

其他属性

Python

pycurl的部分API： pycurl.Curl() #创建一个pycurl对象的方法 pycurl.Curl(pycurl.URL, http://www.google.com.hk) #设置要访问的URL pycurl.Curl().setopt(pycurl.MAXREDIRS, 5) #设置最大重定向次数 pycurl.Curl().setopt(pycurl.CONNECTTIMEOUT, 60) pycurl.Curl().setopt(pycurl.TIMEOUT, 300) #连接超时设置 pycurl.Curl().setopt(pycurl.USERAGENT, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)") #模拟浏览器 pycurl.Curl().perform() #服务器端返回的信息 pycurl.Curl().getinfo(pycurl.HTTP_CODE) #查看HTTP的状态类似urllib中status属性 pycurl.NAMELOOKUP_TIME 域名解析时间 pycurl.CONNECT_TIME 远程服务器连接时间 pycurl.PRETRANSFER_TIME 连接上后到开始传输时的时间 pycurl.STARTTRANSFER_TIME 接收到第一个字节的时间 pycurl.TOTAL_TIME 上一请求总的时间 pycurl.REDIRECT_TIME 如果存在转向的话，花费的时间 pycurl.HTTP_CODE HTTP 响应代码 pycurl.REDIRECT_COUNT 重定向的次数 pycurl.SIZE_UPLOAD 上传的数据大小 pycurl.SIZE_DOWNLOAD 下载的数据大小 pycurl.SPEED_UPLOAD 上传速度 pycurl.HEADER_SIZE 头部大小 pycurl.REQUEST_SIZE 请求大小 pycurl.CONTENT_LENGTH_DOWNLOAD 下载内容长度 pycurl.CONTENT_LENGTH_UPLOAD 上传内容长度 pycurl.CONTENT_TYPE 内容的类型 pycurl.RESPONSE_CODE 响应代码 pycurl.SPEED_DOWNLOAD 下载速度 pycurl.INFO_FILETIME 文件的时间信息 pycurl.HTTP_CONNECTCODE HTTP 连接代码

pycurl的部分 API：

pycurl . Curl ( ) #创建一个pycurl对象的方法

pycurl . Curl ( pycurl . URL , http : / / www . google . com . hk ) #设置要访问的URL

pycurl . Curl ( ) . setopt ( pycurl . MAXREDIRS , 5 ) #设置最大重定向次数

pycurl . Curl ( ) . setopt ( pycurl . CONNECTTIMEOUT , 60 )

pycurl . Curl ( ) . setopt ( pycurl . TIMEOUT , 300 ) #连接超时设置

pycurl . Curl ( ) . setopt ( pycurl . USERAGENT , "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)" ) #模拟浏览器

pycurl . Curl ( ) . perform ( ) #服务器端返回的信息

pycurl . Curl ( ) . getinfo ( pycurl . HTTP_CODE ) #查看HTTP的状态类似urllib中status属性

pycurl . NAMELOOKUP _TIME 域名解析时间

pycurl . CONNECT _TIME 远程服务器连接时间

pycurl . PRETRANSFER _TIME 连接上后到开始传输时的时间

pycurl . STARTTRANSFER _TIME 接收到第一个字节的时间

pycurl . TOTAL _TIME 上一请求总的时间

pycurl . REDIRECT _TIME 如果存在转向的话，花费的时间

pycurl . HTTP_CODE HTTP 响应代码

pycurl . REDIRECT _COUNT 重定向的次数

pycurl . SIZE _UPLOAD 上传的数据大小

pycurl . SIZE _DOWNLOAD 下载的数据大小

pycurl . SPEED _UPLOAD 上传速度

pycurl . HEADER _SIZE 头部大小

pycurl . REQUEST _SIZE 请求大小

pycurl . CONTENT_LENGTH _DOWNLOAD 下载内容长度

pycurl . CONTENT_LENGTH _UPLOAD 上传内容长度

pycurl . CONTENT _TYPE 内容的类型

pycurl . RESPONSE _CODE 响应代码

pycurl . SPEED _DOWNLOAD 下载速度

pycurl . INFO _FILETIME 文件的时间信息

pycurl . HTTP_CONNECTCODE HTTP 连接代码

参考文档
http://pycurl.io/docs/latest/quickstart.html
https://stackoverflow.com/questions/15461995/python-requests-vs-pycurl-performance

First and foremost, requests is built on top of the urllib3 library, the stdlib urllib or urllib2 libraries are not used at all.

There is little point in comparing requests with pycurl on performance. pycurl may use C code for its work but like all network programming, your execution speed depends largely on the network that separates your machine from the target server. Moreover, the target server could be slow to respond.

In the end, requests has a far more friendly API to work with, and you'll find that you'll be more productive using that friendlier API.

zeropython 微信公众号 5868037 QQ号 5868037@qq.com QQ邮箱

songhao8080

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pycurl 使用，Request与Pycurl 性能比较

Pycurl包是一个libcurl的Python接口，由C语言编写的，功能强大，速度快。由于pycurl的属性和方法太多了，写这篇博文记录一下pycurl的属性和方法。正常安装pip install pycurl如果出现问题，可以按照系统版本搜索安装方法，比如centos7.1 安装pycurl通用请求方法 ...
复制链接

扫一扫