收到别人的请求帮忙爬数据,勤劳的劳动人民遇到了坑
过程:
起头
$ch = curl_init();
既然是模拟web 请求,需要带上对应的头文件 header
curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
头文件有比较坑的地方,虽然是一个数组,但是并不是一个json 数组,只是一个单纯的数组,对应关系由 : 分割
$header = [
'accept:*/*',
'accept-encoding:gzip, deflate, br',
'accept-language:zh-CN,zh;q=0.9,en;q=0.8',
'x-requested-with:XMLHttpRequest',
'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36',
];
设置对应的url
curl_setopt($ch, CURLOPT_URL, $url);
收工
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$output = curl_exec($ch);
curl_close($ch);
然后坑来了,人家是https 请求,返回的居然是个null 你说气不气
设置跳过验证
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);
try again
返回是乱码,你气不气
上面虽然设置了language, 但是并不会生效,需要重置一下编码
curl_setopt($ch, CURLOPT_ENCODING, '');
但是又出问题了,网页有反爬机制,返回的是一个302,直接跳转了,加上跳转跟踪
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true)
在实现了跟踪之后又遇到了大文件下载,直接返回来一个null,一脸懵逼,后面觉得应该是超时了于是加了一个超时时间
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5 * 60);
搞定!真收工~
后面就是愉快的,返回参数解析时间了
打工人不要面子的啊