php 模拟web 请求

最新推荐文章于 2023-08-30 17:27:21 发布

weitao_11

最新推荐文章于 2023-08-30 17:27:21 发布

阅读量225

点赞数

分类专栏： php

本文链接：https://blog.csdn.net/weitao_11/article/details/112538366

版权

php 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

收到别人的请求帮忙爬数据，勤劳的劳动人民遇到了坑

过程：

起头

$ch = curl_init();

既然是模拟web 请求，需要带上对应的头文件 header

curl_setopt($ch, CURLOPT_HTTPHEADER, $header);

头文件有比较坑的地方，虽然是一个数组，但是并不是一个json 数组，只是一个单纯的数组，对应关系由 : 分割

$header = [
    'accept:*/*',
    'accept-encoding:gzip, deflate, br',
    'accept-language:zh-CN,zh;q=0.9,en;q=0.8',
    'x-requested-with:XMLHttpRequest',
    'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36',
];

设置对应的url

curl_setopt($ch, CURLOPT_URL, $url);

收工

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$output = curl_exec($ch);
curl_close($ch);

然后坑来了，人家是https 请求，返回的居然是个null 你说气不气

设置跳过验证

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);

try again

返回是乱码，你气不气

上面虽然设置了language，但是并不会生效，需要重置一下编码

curl_setopt($ch, CURLOPT_ENCODING, '');

但是又出问题了，网页有反爬机制，返回的是一个302，直接跳转了，加上跳转跟踪

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true)

在实现了跟踪之后又遇到了大文件下载，直接返回来一个null，一脸懵逼，后面觉得应该是超时了于是加了一个超时时间

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5 * 60);

搞定！真收工~

后面就是愉快的，返回参数解析时间了

打工人不要面子的啊

weitao_11

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php 模拟web 请求

收到别人的请求帮忙爬数据，勤劳的劳动人民遇到了坑过程：起头$ch = curl_init();既然是模拟web请求，需要带上对应的头文件headercurl_setopt($ch, CURLOPT_HTTPHEADER, $header);头文件有比较坑的地方，虽然是一个数组，但是并不是一个json数组，只是一个单纯的数组，对应关系由 : 分割$header = [ 'accept:*/*', 'accept-enco...
复制链接

扫一扫