采集获取网页内容

乱码有几种可能如下:

1.页面能获取过来,只是内容乱码而已:可以采用iconv()和mb_convert_encoding()函数进行转码即可

  如:

header('content-type:text/html;charset=utf-8;');
$url = 'http://weibo.com/5589516034/profile?topnav=1&wvr=6&is_all=1';
$file = file_get_contents($url);
//打印获得的数据
$output =  iconv('gb2312', 'utf-8', $file);
var_dump($output);

2.当内容都无法正常获取的时候,分两种情况第一种是防盗链,第二种是页面需要解压

2.1防盗链情况下解决办法比较简单,模拟浏览器就可以了

[php]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. <?php  
  2.     header('content-type:text/html;charset=utf-8');  
  3.     $url="http://www.sohu.com/";  
  4.     ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;)');  
  5.     $html=file_get_contents($url);  
  6.     //echo $html;  
  7.     echo mb_convert_encoding($html,'utf8','gbk');  //转码

2.2需要解压时,我们可以用以下方式

[php]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. <?php  
  2. header("content-type:text/html;charset=utf-8");  
  3. $url="http://wthrcdn.etouch.cn/WeatherApi?city=%E5%8C%97%E4%BA%AC";  
  4. $xml = simplexml_load_file("compress.zlib://".$url);  
  5. $json=json_encode($xml);  
  6. $arr=json_decode($json,true);  
  7. print_r($arr);

curl模拟post请求提交

  1. header('content-type:text/html;charset=utf-8');  
  2. function curlPost($url,$data,$method){  
  3.     $ch = curl_init();   //1.初始化  
  4.     curl_setopt($ch, CURLOPT_URL, $url); //2.请求地址  
  5.     curl_setopt($ch, CURLOPT_CUSTOMREQUEST, $method);//3.请求方式  
  6.     //4.参数如下  
  7.     curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);//https  
  8.     curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);  
  9.     curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; MSIE 5.01; Windows NT 5.0)');//模拟浏览器  
  10.     curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);  
  11.     curl_setopt($ch, CURLOPT_AUTOREFERER, 1);  
  12.         curl_setopt($ch, CURLOPT_HTTPHEADER,array('Accept-Encoding: gzip, deflate'));//gzip解压内容  
  13.         curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');  
  14.       
  15.     if($method=="POST"){//5.post方式的时候添加数据  
  16.         curl_setopt($ch, CURLOPT_POSTFIELDS, $data);  
  17.     }  
  18.     curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);  
  19.     $tmpInfo = curl_exec($ch);//6.执行  
  20.   
  21.     if (curl_errno($ch)) {//7.如果出错  
  22.         return curl_error($ch);  
  23.     }  
  24.     curl_close($ch);//8.关闭  
  25.     return $tmpInfo;  
  26. }  
  27. $data=array('name' => '1234');  
  28. $url="http://www.sohu.com/";  
  29.   
  30. $method="GET";  
  31. $file=curlPost($url,$data,$method);  
  32. $file=mb_convert_encoding($file,'UTF-8','GBK');  
  33. echo $file;  


当cookie认证登陆的时候

[php]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. <?php  
  2.     $cookie_file = tempnam('./temp','cookie');  
  3.     function weixinPost($url,$data,$method,$setcooke=false,$cookie_file=false){  
  4.         $ch = curl_init();   //1.初始化  
  5.         curl_setopt($ch, CURLOPT_URL, $url); //2.请求地址  
  6.         curl_setopt($ch, CURLOPT_CUSTOMREQUEST, $method);//3.请求方式  
  7.         //4.参数如下      
  8.         curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);  
  9.         curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);  
  10.         curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; MSIE 5.01; Windows NT 5.0)');  
  11.         curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);  
  12.         curl_setopt($ch, CURLOPT_AUTOREFERER, 1);  
  13.           
  14.         if($method=="POST"){//5.post方式的时候添加数据     
  15.             curl_setopt($ch, CURLOPT_POSTFIELDS, $data);  
  16.         }  
  17.         if($setcooke==true){  
  18.             curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);  
  19.         }else{  
  20.             curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);  
  21.         }  
  22.         curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);  
  23.         $tmpInfo = curl_exec($ch);//6.执行  
  24.   
  25.         if (curl_errno($ch)) {//7.如果出错  
  26.             return curl_error($ch);  
  27.         }  
  28.         curl_close($ch);//8.关闭  
  29.         return $tmpInfo;  
  30.     }  
  31.     $data=array('username' => '***','password'=>'***');  
  32.     $url="http://www.xinxinj.com/login.php";  
  33.     $method="POST";  
  34.     $file=weixinPost($url,$data,$method,true,$cookie_file);  
  35.     echo $file;  
  36.           
  37.     $url="http://www.xinxinj.com/admin.php";  
  38.     $method="GET";  
  39.     $file=weixinPost($url,$data,$method,false,$cookie_file);  
  40.     echo $file;  
  41.           
  42. ?>  


如果上述还是无法解决,那么采用以下方案

[php]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. <?php
  2. $ch = curl_init();    
  3. $url = '*******'; //采集网址地址
  4. $header = array(  
  5. 'cookie:********'
  6. );//cookie的内容是现在浏览器登录,然后打开控制台,把cookie的信息粘贴进来,注意空格,去空格。
  7. // 添加apikey到header    
  8. curl_setopt($ch, CURLOPT_HTTPHEADER  , $header);    
  9. //curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);    
  10. curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:50.0) Gecko/20100101 Firefox/50.0');
  11. //此‘地址’(浏览器标识)根据自己的浏览器复制
  12. curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);    
  13. curl_setopt($ch, CURLOPT_AUTOREFERER, 1);

  14. curl_setopt($ch,CURLOPT_SSL_VERIFYPEER,false);//若采集网址地址是https加以下此两行
    curl_setopt($ch,CURLOPT_SSL_VERIFYHOST,false);//

  15. // 执行HTTP请求    
  16. curl_setopt($ch , CURLOPT_URL , $url);    
  17. $res = curl_exec($ch);    
  18. var_dump($res);    

上面的$header中的数组中cookie的内容是现在浏览器登录,然后打开控制台,把cookie的信息粘贴进来

cookie存储时间有限制。


下面介绍个模拟登录可以长期存取的cookie

<?php
header('Content-type:text/html;charset=utf-8');

$loginUrl = 'https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.15)&_=1403138799543';

$cookie_file1 = dirname(__FILE__).'/cookie/cookie1.txt';
$cookie_file2 = dirname(__FILE__).'/cookie/cookie2.txt';
$cookie_file3 = dirname(__FILE__).'/cookie/cookie3.txt';
(在同级目录下建立文件夹cookie,在此目录下分别创建文件cookie1.txt,cookie2.txt,cookie3.txt)。

$u = '此处通行证帐号';//无中文
$p = '此处通行证密码';

$username = base64_encode($u);
$password = $p;

//登录新浪通行证
$loginData['entry'] = 'sso';
$loginData['gateway'] = '1';
$loginData['from'] = 'null';
$loginData['savestate'] = '30';
$loginData['useticket'] = '0';
$loginData['pagerefer'] = '';
$loginData['vsnf'] = '1';
$loginData['su'] = base64_encode($u);
$loginData['service'] = 'sso';
$loginData['sp'] = $password;
$loginData['sr'] = '1920*1080';
$loginData['encoding'] = 'UTF-8';
$loginData['cdult'] = '3';
$loginData['domain'] = 'sina.com.cn';
$loginData['prelt'] = '0';
$loginData['returntype'] = 'TEXT';

$login = json_decode(loginPost($loginUrl,$loginData),true);

//获取微博cookie
$ch = curl_init();
curl_setopt($ch,CURLOPT_URL,$login['crossDomainUrlList'][0]);    
curl_setopt ( $ch, CURLOPT_SSL_VERIFYPEER, 0 );
curl_setopt ( $ch, CURLOPT_SSL_VERIFYHOST, 2 );
curl_setopt($ch,CURLOPT_HEADER,0);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);    
curl_setopt($ch,CURLOPT_COOKIEFILE, $cookie_file1);    
curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file2);    
$return = curl_exec($ch);
curl_close($ch);

//通过获取的cookie 登录微博, 自动跳转
$ch = curl_init();
curl_setopt($ch,CURLOPT_URL,"http://weibo.com/at/weibo?topnav=1&wvr=5");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);    
curl_setopt($ch,CURLOPT_COOKIEFILE, $cookie_file2);    
curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file3);
curl_setopt ( $ch, CURLOPT_FOLLOWLOCATION, 1 );    
$return = curl_exec($ch);
//$info = curl_getinfo($ch);
curl_close($ch);
echo $return;
	//写正则获取所需内容
	$preg = '#<title>(.*)</title>#iUs';
	preg_match_all($preg,$return,$arr);
	var_dump($arr);


function loginPost($url,$data){
        global $cookie_file1 ;
        //echo $cookie_file ;exit;
        $ch = curl_init();
        curl_setopt($ch,CURLOPT_URL,$url);    
        curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);    
        curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
        curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);        
        curl_setopt($ch,CURLOPT_POST,1);
        curl_setopt($ch,CURLOPT_POSTFIELDS, http_build_query($data));
        curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file1);
        $return = curl_exec($ch);
        $info = curl_getinfo($ch);
        curl_close($ch);
        return $return;
}


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值