抓取网站内容常见方法

最新推荐文章于 2024-10-04 11:12:26 发布

ljihe

最新推荐文章于 2024-10-04 11:12:26 发布

阅读量806

点赞数

分类专栏： PHP 文章标签： php

本文链接：https://blog.csdn.net/ljihe/article/details/51972255

版权

PHP 专栏收录该内容

43 篇文章 0 订阅

订阅专栏

<?php
/*------------------------
根据给出地址，获取网页及页面内的js，css文件按原文件名保存到本地
-------------------------*/
       $url  = 'http://www.zzzzz.com/html_13.html';//页面路径
        $dir = APP_PATH.'save-xiaohaopin/';//保存数据的文件夹路径，因框架不同而定APP_PATH
        //路径不存在则创建
        if(!is_dir($dir)){
            mkdir($dir);
        }
        
        $ch = curl_init(); 
        curl_setopt ($ch, CURLOPT_URL, $url); 
        curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); 
        curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT,10); 
        $html = curl_exec($ch);
        //html保存
        $hpath  = @fopen($dir.'html_13.html','wb');
        fwrite($hpath,$html);
        fclose($hpath);
        //正则表达式
        $pre = '/"([^"]*\.(js|css)[^"]*)"/i';//js&css
        $urlarr = array();
        preg_match_all($pre,$html,$urlarr);
        $urlarr = $urlarr[1];
        //url处理&&根据url获取结果不同而自定义处理
        //./templates/js/gongjutiao.js&&&&&./templates/css/gongjutiao.css
        $mainurl = 'http://www.zzzzz.com/';
        //just save it
        foreach($urlarr as $k => $u){
            $surl = str_replace('./','',$u);
            $dourl = $mainurl.$surl;
            $fileName = substr($u,strrpos($u,'/')+1);
            $savePath = $dir.$fileName;
            $con = file_get_contents($dourl);
            $fop = @fopen($savePath,'wb');
            fwrite($fop,$con);
            fclose($fop);    
        }        
        exit('Obtain all');

/*----------------end
---------------------*/

/*------------------------
获取某个网站过多数据或者抓取过快等因素，都会经常导致IP被封的风险，但我们可以自己利用PHP构造IP地址的方式，获取数据。
-------------------------*/

       $headers['CLIENT-IP'] = $headers['X-FORWARDED-FOR'] = '127.0.0.1'; //些处只是个例，IP可以自己定义
        $headerArr = array();
        foreach( $headers as $n => $m ) {
            $headerArr[] = $n .':' . $m;
        }
        //$refer = $_SERVER["HTTP_REFERER"];
        
        
        $ch = curl_init();
        curl_setopt ($ch, CURLOPT_URL, $url);
        curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); 
        curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT,10);
        curl_setopt ($ch, CURLOPT_HTTPHEADER , $headerArr); //构造IP
        $html = curl_exec($ch);
        curl_close($ch);
        
        //下面就可以写自己抓取数据的正则表达式
        $reg = '/.*/';
        
        
        //正则匹配后放到相应的数组里面
        $arr= array();
        preg_match($reg,$html,$arr);

        //可以做数据处理,例：
        $val = $arr[1];
        
        //数据组装
        $data = array(
            'val'     =>$val,
        );    
        //var_dump($data);exit;
        //数据添加到数据库，下面是ThinkPHP框架用法
        M('WeaponAttr')->add($data);
        //如果有封IP风险，可以调节抓取的速度或者做一些其它的优化
        sleep(5);
        echo 'ok';exit;
/*----------------end
---------------------*/


/*------------------------
在获取某网站的数据的过程中，往往网页会通过网页点击传送js参数，利用ajax去获取数据，形成无刷新页面，在翻页的过程当中有些网站在第一次获取回来的信息之后，就在当前页面保存一个cookie，然后分页面就可以根据cookie的值去获取下一页，而且用同一种分页方式表现：例如：show_1.html,第二页就是show_2.html以此类推，。不管你访问的是哪一个分类，或者其它的一些栏目。它们获取回来的列表分页页面都是以这种形式去表现的，如果删除了cookie页面就会变为空。没有数据。
-------------------------*/
    function getdata(){        
        define( "COOKIEJAR", tempnam( ini_get( "upload_tmp_dir" ), "cookie" ) );
        $url = 'http://';
        $ch = curl_init();
        curl_setopt ($ch, CURLOPT_URL, $url);
        curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); 
        curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT,10); 
        curl_setopt ($ch, CURLOPT_COOKIEJAR, COOKIEJAR);//连接结束后保存cookie信息的文件。 
        $html = curl_exec($ch);
        curl_close($ch);
                
        //$html是第一次传参数的时候获取回来的数据，用get函数来对获取回来的数据处理        
        $this->get($html);
        
        //class="page">4</li>//获取分页的信息
        $parr = array();
        $page = '/class="page">(\d+)</';
        preg_match_all($page,$html,$parr);
        
        if(!empty($parr[1])){
            $cnum = array_pop($parr[1]);
            for($i = 2;$i <= $cnum;$i++){
                $n = $this->jdoit($i);//根据coodie去获取下一页的内容回来
                $this->get($n);//内容处理
            }
        }
        
        echo 'okk';
    }
    
    
    function jdoit($num){
        $url = 'http://www.xxxx.com/fenye-'.$num.'.html';
        $ch = curl_init(); 
        curl_setopt ($ch, CURLOPT_URL, $url); 
        curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); 
        curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT,10); 
        curl_setopt ($ch, CURLOPT_COOKIEJAR, COOKIEJAR);
        //包含cookie数据的文件名，cookie文件的格式可以是Netscape格式，或者只是纯HTTP头部信息存入文件。 
        curl_setopt ($ch, CURLOPT_COOKIEFILE, COOKIEJAR);
        $html = curl_exec($ch);
        curl_close($ch);
        return $html;
    }
    function get($html){
        
        //正则表达式
        $reg  = '/<dd[^>]*>([\s\S]*?)<\/dd>/';

        /*获取回来的内容可以在此处理*/
    
    }

/*----------------end
---------------------*/


/*------------------------
根据地址，把图片保存到本地
-------------------------*/
        $pic_url = 'http://www.picture.com/';
        $path = 'D:\picdir';//保存路径    
        if(!is_dir($path)){
            mkdir($path,0777);
        }
        $filename = $path.'name';
        ob_start(); 
        readfile($pic_url);
        $img = ob_get_contents();
        ob_end_clean();
        //$size = strlen($img);
        $fp2=@fopen($filename, "a");
        fwrite($fp2,$img);
        fclose($fp2);
/*----------------end
---------------------*/      
?>

/*===========================*/
    //$proxy_host->代理服务器地址,,$proxy_port->端口
    //通过代理获取网页内容
    function proxy_get_content($proxy_host,$proxy_port,$proxy_user,$proxy_password,$url){
        $ch = curl_init(); 
        curl_setopt($ch, CURLOPT_PROXY,"$proxy_host:$proxy_port"); 
        curl_setopt($ch, CURLOPT_PROXYUSERPWD, "$proxy_user:$proxy_password");
        curl_setopt($ch, CURLOPT_URL,$url);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); 
        curl_setopt($ch, CURLOPT_HEADER,0); 
        $bcon = curl_exec($ch); 
        echo curl_error($ch); 
        curl_close($ch); 
        return $bcon;
    }