PHP 实现页面抓取

最新推荐文章于 2023-01-22 11:14:20 发布

动静之间

最新推荐文章于 2023-01-22 11:14:20 发布

阅读量752

点赞数 1

分类专栏： PHP 文章标签： php html curl

本文链接：https://blog.csdn.net/Zzz34k/article/details/52586626

版权

PHP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

我承认有很多很好的实现，但是自己还是使用Curl实现了一个简单的页面抓取类，主要用到了Curl 和 simple_html_dom, 直接上代码：

class HttpClient {

    private $cookiePath = "d:/my.cookie";

    /**
     * HTTP GET
     * @param unknown $url
     * @return mixed
     */
    public function request($url) {
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_COOKIEJAR, $this->cookiePath);
        curl_setopt($ch, CURLOPT_COOKIEFILE, $this->cookiePath);
        curl_setopt($ch, CURLOPT_HEADER, 0);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        $result = curl_exec($ch);
        curl_close($ch);
        return $result;
    }

    /**
     * download file
     * @param unknown $url
     * @param unknown $target
     * @return boolean
     */
    public function download($url, $target) {
        $ch = curl_init ();
        curl_setopt ( $ch, CURLOPT_CUSTOMREQUEST, 'GET' );
        curl_setopt ( $ch, CURLOPT_SSL_VERIFYPEER, false );
        curl_setopt($ch, CURLOPT_COOKIEFILE, $this->cookiePath);
        curl_setopt ( $ch, CURLOPT_URL, $url );
        ob_start ();
        curl_exec ( $ch );
        $return_content = ob_get_contents ();
        ob_end_clean ();

        $return_code = curl_getinfo ( $ch, CURLINFO_HTTP_CODE );
        $filename = $target;
        unlink($filename);
        $fp= @fopen($filename,"a"); //将文件绑定到流 
        fwrite($fp,$return_content); //写入文件
        return true;
    }

    /**
     * post data to remote url
     * @param unknown $url
     * @param unknown $params
     * @return mixed
     */
    public function post($url, $params) {
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_HEADER, false);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
        curl_setopt($ch, CURLOPT_POSTFIELDS, $params);
        curl_setopt($ch, CURLOPT_COOKIEJAR, $this->cookiePath);
        curl_setopt($ch, CURLOPT_COOKIEFILE, $this->cookiePath);
        $result=curl_exec($ch);
        curl_close($ch);
        return $result;
    }
}

HttpClient类实现了3个方法，一个用于普通的get请求，一个用于下载文件，一个用于POST数据，比如提交登录表单，因为都保存了Cookie信息，所以基本上可以实现模拟浏览器的一些操作。
simple_html_dom是一个用于解析HTML的简单实现，类似 jquery 或 Css的selector的方式来获取HTML文件中的内容，非常简单：

    $client = new HttpClient();
    $url ='http://www.sample.com/list.do';
    $result = $client->request($url);
    $dom = str_get_html($result);


        $titles = array();
        $records = array();
        foreach($dom->find("table.ti_b th") as $th) {
            //var_dump($th);
            if($th) {
                $titles[] = $th->innertext;
            }
        }
        foreach($dom->find("table.ti_b td") as $td) {
            if($td) {
                $records[] = $td->innertext;
            }
        }