linux curl是通过url语法在命令行下上传或下载文件的工具软件,它支持http,https,ftp,ftps,telnet等多种协议,常被用来抓取网页和监控Web服务器状态。
一、Linux curl用法举例:
1. linux curl抓取网页:
抓取百度:
1
|
curlhttp://www.baidu.com
|
如发现乱码,可以使用iconv转码:
1
|
curlhttp://iframe.ip138.com/ic.asp|iconv -fgb2312
|
iconv的用法请参阅:在Linux/Unix系统下用iconv命令处理文本文件中文乱码问题
2. Linux curl使用代理:
linux curl使用http代理抓取页面:
1
2
|
curl-x 111.95.243.36:80http://iframe.ip138.com/ic.asp|iconv -fgb2312
curl -x111.95.243.36:80-U aiezu:password http://www.baidu.com
|
使用socks代理抓取页面:
1
2
|
curl--socks4 202.113.65.229:443http://iframe.ip138.com/ic.asp|iconv -fgb2312
curl --socks5202.113.65.229:443http://iframe.ip138.com/ic.asp|iconv -fgb2312
|
代理服务器地址可以从爬虫代理上获取。
3. linux curl处理cookies
接收cookies:
1
|
curl-c /tmp/cookieshttp://www.baidu.com #cookies保存到/tmp/cookies文件
|
发送cookies:
1
2
|
curl-b "key1=val1;key2=val2;" http://www.baidu.com #发送cookies文本
curl -b/tmp/cookieshttp://www.baidu.com #从文件中读取cookies
|
4. linux curl发送数据:
linux curl get方式提交数据:
1
|
curl-G -d "name=value&name2=value2"http://www.baidu.com
|
linux curl post方式提交数据:
1
2
|
curl-d "name=value&name2=value2" http://www.baidu.com #post数据
curl -da=b&c=d&txt@/tmp/txthttp://www.baidu.com #post文件
|
以表单的方式上传文件:
1
|
curl-F file=@/tmp/me.txthttp://www.aiezu.com
|
相当于设置form表单的method="POST"和enctype='multipart/form-data'两个属性。
5. linux curl http header处理:
设置http请求头信息:
1
2
3
|
curl-A "Mozilla/5.0 Firefox/21.0" http://www.baidu.com #设置http请求头User-Agent
curl -e"http://pachong.org/" http://www.baidu.com #设置http请求头Referer
curl-H "Connection:keep-alive \n User-Agent: Mozilla/5.0" http://www.aiezu.com
|
设置http响应头处理:
1
2
|
curl-I http://www.aiezu.com #仅仅返回header
curl -D/tmp/headerhttp://www.aiezu.com #将http header保存到/tmp/header文件
|
6. linux curl认证:
1
2
|
curl-u aiezu:password http://www.aiezu.com #用户名密码认证
curl -Emycert.pem https://www.baidu.com #采用证书认证
|
6. 其他:
1
2
|
curl-# http://www.baidu.com #以“#”号输出进度条
curl -o/tmp/aiezuhttp://www.baidu.com #保存http响应到/tmp/aiezu
|
* About to connect() to localhost port 8080 (#0) * Trying 127.0.0.1... connected * Connected to localhost (127.0.0.1) port 8080 (#0) > GET /ppcredit_getbill/alive.jsp HTTP/1.1 > User-Agent: curl/7.19.7 (x86_64-redhat-linux-gnu) libcurl/7.19.7 NSS/3.19.1 Basic ECC zlib/1.2.3 libidn/1.18 libssh2/1.4.2 > Host: localhost:8080 > Accept: */* > < HTTP/1.1 200 OK < Server: Apache-Coyote/1.1 < Set-Cookie: JSESSIONID=11FB3734B3043E6C2E4B287C39C82350; Path=/ppcredit_getbill/; HttpOnly < Content-Type: text/html;charset=UTF-8 < Content-Length: 236 < Date: Thu, 31 Aug 2017 11:02:38 GMT < <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>tomcat娴嬭瘯椤/title> </head> <body > <h1>tomcat is alive锛/h1> <hr> <table> <tr> <td>璁块棶IP</td> <td>127.0.0.1</td> </tr> </table> </body> * Connection #0 to host localhost left intact * Closing connection #0一、get请求
curl "http://www.baidu.com"
如果这里的URL指向的是一个文件或者一幅图都可以直接下载到本地 curl -i "http://www.baidu.com"
显示全部信息 curl -l "http://www.baidu.com" 只显示头部信息
curl -v "http://www.baidu.com" 显示get请求全过程解析
wget "http://www.baidu.com"也可以
二、post请求
curl -d "param1=value1¶m2=value2""http://www.baidu.com"