一个二维码扫出来是一个网址,但访问这个网址会跳转到新的网址,那怎么抓取新的跳转后的网址的页面内容呢?
先获取到它跳转的目标url,原来使用的get_headers:
$header = get_headers($url, 1);
if (empty($header[0]) || empty($header[1])) {
return $url;
}
if (strpos($header[0], '301') || strpos($header[0], '302')) {
if (empty($header['Location'])) {
return $url;
}
if (is_array($header['Location'])) {
return $header['Location'][count($header['Location']) - 1];
} else {
return $header['Location']; //跳转目标url
}
} else {
return $url;
}
但是最近获取不到了,返回的是500错误,但真实访问是可以正常跳转打开的,肯定是对方特意判断了访客信息,于是改成下面的方法,使用curl加入模拟浏览器信息:
$oCurl = curl_init();
// 设置请求头, 有时候需要,有时候不用,看请求网址是否有对应的要求
$header[] = "Content-type: application/x-www-form-urlencoded";
$user_agent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.146 Safari/537.36";
curl_setopt($oCurl, CURLOPT_URL, $url);
curl_setopt($oCurl, CURLOPT_HTTPHEADER,$header);
// 返回 response_header, 该选项非常重要,如果不为 true, 只会获得响应的正文
curl_setopt($oCurl, CURLOPT_HEADER, true);
// 是否不需要响应的正文,为了节省带宽及时间,在只需要响应头的情况下可以不要正文
curl_setopt($oCurl, CURLOPT_NOBODY, false);
// 使用上面定义的 ua
curl_setopt($oCurl, CURLOPT_USERAGENT,$user_agent);
curl_setopt($oCurl, CURLOPT_RETURNTRANSFER, 1 );
// 不用 POST 方式请求, 意思就是通过 GET 请求
curl_setopt($oCurl, CURLOPT_POST, false);
$sContent = curl_exec($oCurl);
// 获得响应结果里的:头大小
// $headerSize = curl_getinfo($oCurl, CURLINFO_HEADER_SIZE);
// 根据头大小去获取头信息内容
// $header = substr($sContent, 0, $headerSize);
curl_close($oCurl);
$con1 = explode('Location:',$sContent);
$con2 = explode('Content-Language',$con1[1]);
$con3 = str_replace(array("\r\n", "\r", "\n", " "), "", $con2[0]);
return $con3;//跳转目标url
然后抓取目标url网页的内容:
$curl = curl_init();
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_TIMEOUT, 30);
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);
curl_setopt($curl, CURLOPT_URL, $url);
//模拟浏览器环境
$useragent="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11";
curl_setopt($curl, CURLOPT_USERAGENT, $useragent);
$res = curl_exec($curl);
curl_close($curl);
return $res;
欢迎交流指点!我的微信: