php 采集器原理,【原创】PHP CURL模拟登陆原理 - 金牛座, 爬山虎, PHPCreeper, Workerman, Swoole, PHP爬虫引擎, PHP爬虫框架, 网页采集器, 数据抓...

PHP中要模拟浏览器登录访问网站,首选要学会如何抓包,即观察浏览器是如何发送http报文的,以及服务器给浏览器返回了什么样的内容。金牛座推荐安装抓包利器: Charles 或者 Fiddler。关于这两个软件的使用请自行研究。

其实模拟登录,最关键的地方是突破登陆验证。CURL不仅支持http,还支持https,区别就在于多了一层SSL加密传输,如果是要登陆https网站,PHP记得要支开启openssl扩展,OK,下面举例说明:

// 用户名

$login = "username";

//密码

$password = "password";

//163的用户登陆地址

$url = "https://reg.163.com/logins.jsp";

//post 要提交的数据

$fields = "verifycookie=1&style=16&product=mail163&username=".$login."&password=".$password."&selType=jy&remUser=&secure=on&%B5%C7%C2%BC%D3%CA%CF%E4=%B5%C7%C2%BC%D3%CA%CF%E4″;

//写入cookie文件

$cookie_file = dirname(__FILE__) . "/cookie.txt";

//启动一个CURL会话

$ch = curl_init();

//要访问的地址

curl_setopt($ch, CURLOPT_URL, $url);

//对认证证书来源的检查,0表示阻止对证书的合法性的检查。

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);

//从证书中检查SSL加密算法是否存在

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 1);

//模拟用户使用的浏览器,在HTTP请求中包含一个"user-agent"头的字符串

curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)");

//发送一个常规的POST请求,类型为:application/x-www-form-urlencoded,就像表单提交一样

curl_setopt($ch, CURLOPT_POST, 1);

//要传送的所有数据,如果要传送一个文件,需要一个@开头的文件名

curl_setopt($ch, CURLOPT_POSTFIELDS, $fields);

//连接关闭以后,存放cookie信息的文件名称

curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);

//包含cookie信息的文件名称,这个cookie文件可以是Netscape格式或者HTTP风格的header信息。

curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);

//设置curl允许执行的最长时间,单位:秒

//curl_setopt($ch, CURLOPT_TIMEOUT, 6);

//获取的信息以文件流的形式返回,而不是直接输出。

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

//执行操作

$result = curl_exec($ch);

//错误简单处理

if ($result == NULL) {

echo "Error:" . curl_error($ch) . PHP_EOL;

echo "Error No:" . curl_errno($ch) . PHP_EOL;

}

//关闭CURL会话

curl_close($ch);

上面这个例子相对简单,因为用户名和密码可以明文传输,而且登陆也不需要验证码。qq.com的模拟登陆相对就麻烦多了,首先要突破验证码这关,然后由于QQ密码是经过javascript加密后传输的,登陆界面也要模拟出来。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值