php 模拟web 请求

收到别人的请求帮忙爬数据,勤劳的劳动人民遇到了坑

过程:

起头

$ch = curl_init();

既然是模拟web 请求,需要带上对应的头文件 header

curl_setopt($ch, CURLOPT_HTTPHEADER, $header);

头文件有比较坑的地方,虽然是一个数组,但是并不是一个json 数组,只是一个单纯的数组,对应关系由 : 分割

$header = [
    'accept:*/*',
    'accept-encoding:gzip, deflate, br',
    'accept-language:zh-CN,zh;q=0.9,en;q=0.8',
    'x-requested-with:XMLHttpRequest',
    'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36',
];

设置对应的url

curl_setopt($ch, CURLOPT_URL, $url);

收工

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$output = curl_exec($ch);
curl_close($ch);

然后坑来了,人家是https 请求,返回的居然是个null 你说气不气

设置跳过验证

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);

try again

返回是乱码,你气不气

上面虽然设置了language, 但是并不会生效,需要重置一下编码

curl_setopt($ch, CURLOPT_ENCODING, '');

但是又出问题了,网页有反爬机制,返回的是一个302,直接跳转了,加上跳转跟踪

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true)

 在实现了跟踪之后又遇到了大文件下载,直接返回来一个null,一脸懵逼,后面觉得应该是超时了于是加了一个超时时间

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5 * 60);

 搞定!真收工~

后面就是愉快的,返回参数解析时间了

打工人不要面子的啊

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值