PHP实现的一个简单的爬虫

这个小爬虫的功能是抓取目标网页的url,并实现递归爬。这个小demo是参照网友的代码然后自己改了一下,由于网上版本太多,我就不@原来的作者了(我不知道谁才是真正的作者)

下面是代码:

<?php
//爬虫类
class Crawler{
    private $url;
    public function __construct($url){
        if(!preg_match("/^(http)s?/", $url)){
            $url = "http://".$url;
        }
        $this->url = $url;
    }
    //从给定的url中获取html内容
    protected function _getUrlContent($url){
        @$handle = fopen($url, "r");
        if(error_get_last()){//捕获异常(不一定是错误)
            $err = new Exception("你的URL好像不对!要不换一个?");
            echo $err->getMessage();
            return;
        }
        if($handle){
            $content = stream_get_contents($handle,1024*1024);//将资源流读入字符串
            return $content;
        }else{
            return false;
        }   
    }
    //从html内容中筛选链接
    protected function _filterUrl($web_content){
        $reg_tag_a = '/<[a|A].*?href=[\'\"]{0,1}([^>\'\"\ ]*).*?>/';
        $result = preg_match_all($reg_tag_a,$web_content,$match_result);
        if($result){
            return $match_result[1];
        }
    }
    //判断是否是完整的url
    protected function _judgeURL($url){
        $url_info = parse_url($url);
        if(isset($url_info['scheme'])||isset($url_info['host'])){
            return true;
        }
        return false;
    }
    //修正相对路径
    protected function _reviseUrl($base_url,$url_list){
        $url_info = parse_url($base_url);//分解url中的各个部分
        unset($base_url);
        $base_url = isset($url_info["scheme"])?$url_info["scheme"].'://':"";//$url_info["scheme"]为http、ftp等
        if(isset($url_info["user"]) && isset($url_info["pass"])){//记录用户名及密码的url
            $base_url .= $url_info["user"].":".$url_info["pass"]."@";
        }
        $base_url .= isset($url_info["host"])?$url_info["host"]:"";//$url_info["host"]域名
        if(isset($url_info["port"])){//$url_info["port"]端口,8080等
            $base_url .= ":".$url_info["port"];
        }
        $base_url .= isset($url_info["path"])?$url_info["path"]:"";//$url_info["path"]路径
        //目前为止,绝对路径前面已经组装完
        if(is_array($url_list)){
            foreach ($url_list as $url_item) {
                // if(preg_match('/^(http)s?/',$url_item)){
                if($this->_judgeURL($url_item)){
                    //已经是完整的url
                    $result[] = $url_item;
                }else {
                    //不完整的url
                    $real_url = $base_url.$url_item;
                    $result[] = $real_url;
                }
            }
            return $result;
        }else {
            return;
        }
    }
    //爬虫
    public function crawler(){
        $content = $this->_getUrlContent($this->url);
        if($content){
            $url_list = $this->_reviseUrl($this->url,$this->_filterUrl($content));
            if($url_list){
                return $url_list;
            }else {
                return ;
            }
        }else{
            return ;
        }
    }
}


$fp_puts = fopen("url.txt","ab");//记录url列表
$fp_gets = fopen("url.txt","r");//保存url列表
$current_url = "www.baidu.com";
do{
    $Crawler = new Crawler($current_url);
    $url_arr = $Crawler->crawler();
    if($url_arr){
        foreach ($url_arr as $url) {
            fputs($fp_puts,$url."\n");
        }
    }
}while ($current_url = fgets($fp_gets,1024));//不断获得url
// echo "<pre>";
// var_dump($url_arr);
// echo "<pre/>";
?>

由于在循环的时候要new的对象可能会很多,当时想的是用单例模式解决,以免内存开销太大,后来嫌麻烦就不了了之了。。。。

### 回答1: 在 Laravel 中使用 Goutte 和 Guzzle 实现一个简单爬虫非常容易,下面是一个简单的示例,步骤如下: 1. 安装 Guzzle 和 Goutte 在 Laravel 项目中使用 Composer 安装 Guzzle 和 Goutte: ``` composer require guzzlehttp/guzzle composer require symfony/dom-crawler ``` 2. 创建一个命令 在 Laravel 中,您可以使用 `make:command` Artisan 命令创建一个命令来运行您的爬虫,例如: ``` php artisan make:command Spider ``` 这将在 `app/Console/Commands` 目录中创建一个名为 `Spider` 的新命令。 3. 编写命令代码 在 `app/Console/Commands/Spider.php` 文件中,您可以编写以下代码: ```php <?php namespace App\Console\Commands; use Illuminate\Console\Command; use GuzzleHttp\Client; use Goutte\Client as GoutteClient; class Spider extends Command { protected $signature = 'spider:run {url}'; protected $description = 'Run a simple spider.'; public function handle() { $url = $this->argument('url'); $client = new Client(); $goutte = new GoutteClient(); $response = $client->request('GET', $url); $crawler = $goutte->request('GET', $url); $crawler->filter('a')->each(function($node) { $link = $node->attr('href'); $this->info($link); }); } } ``` 在这个例子中,我们首先获取通过命令行传递的 URL,然后使用 Guzzle 发送一个 HTTP GET 请求获取页面内容。接下来,我们使用 Goutte 解析页面并找到其中的所有链接。 4. 运行命令 现在,您可以使用以下命令运行您的爬虫: ``` php artisan spider:run http://example.com ``` 这将输出页面中的所有链接。 这只是一个简单的示例,您可以根据需要扩展它。例如,您可以编写代码来在数据库中存储页面内容,或者使用更高级的爬虫技术来提取更有用的信息。 ### 回答2: 使用PHP的Laravel框架来构建一个简单爬虫可以使用Goutte和Guzzle这两个库来实现。下面是一个使用Goutte和Guzzle来构建简单爬虫的步骤。 首先,我们需要安装Goutte和Guzzle库。在Laravel项目的根目录下运行以下命令: ``` composer require goutte/goutte guzzlehttp/guzzle ``` 安装完成后,我们就可以开始编写爬虫代码了。首先在控制器中引入Goutte和Guzzle的命名空间: ``` use Goutte\Client; use GuzzleHttp\Client as GuzzleClient; ``` 接下来,我们可以在控制器中编写一个方法来实现爬虫功能。以下是一个简单的例子: ```php public function crawl() { // 创建一个Goutte的Client实例 $client = new Client(); // 使用Guzzle来实现异步请求 $guzzleClient = new GuzzleClient(['timeout' => 60]); $client->setClient($guzzleClient); // 发起请求并获取响应 $crawler = $client->request('GET', 'http://example.com'); // 使用CSS选择器来提取需要的数据 $crawler->filter('h1')->each(function ($node) { echo $node->text()."\n"; }); } ``` 在上面的例子中,我们首先创建了一个Goutte的Client实例,并使用Guzzle作为底层的HTTP客户端。然后,我们发起了一个GET请求,并使用CSS选择器来过滤需要的数据。在这个例子中,我们提取了页面中的所有h1标签的文本内容,并打印出来。 最后,将上述代码放在你的控制器的方法中,并通过路由调用该方法即可执行爬虫功能。 以上就是使用PHP的Laravel框架、Goutte和Guzzle实现简单爬虫的基本步骤。当然,具体的爬虫功能和数据提取都可以根据实际需要进行更进一步的定制。 ### 回答3: 使用php laravel可以很方便地使用Goutte和Guzzle来实现简单爬虫功能。Goutte是一个用于Web页面抓取的PHP库,而Guzzle是一个功能强大的HTTP客户端。下面是一个使用Goutte和Guzzle实现简单爬虫的示例: 首先,确保已经安装了laravel,并且在composer.json中已经添加了goutte和guzzle的依赖。 在需要使用爬虫的地方,可以创建一个新的控制器或者在已有的控制器中添加一个方法。在这个方法中,可以使用Goutte来载入目标网页并选择需要抓取的元素。 ```php use Goutte\Client; public function crawl() { $url = 'http://example.com'; // 要抓取的网页URL $client = new Client(); $crawler = $client->request('GET', $url); // 选择需要抓取的元素 $crawler->filter('h1')->each(function ($node) { echo $node->text()."\n"; }); // 使用Guzzle发送GET请求(可选) $client = new \GuzzleHttp\Client(); $response = $client->request('GET', $url); $body = $response->getBody(); // 进一步处理网页内容 } ``` 上述代码使用Goutte首先发送GET请求到指定的URL,然后使用filter方法选择需要抓取的元素,这里选择了`<h1>`标签,并使用each方法将抓取到的内容进行输出。 这种选择器的语法类似于jQuery,可以根据具体需求选择不同的元素进行抓取。 如果需要进一步处理网页内容,例如使用Guzzle发送HTTP请求,请先在控制器的顶部添加`use GuzzleHttp\Client;`,然后使用Guzzle的Client类发送HTTP请求。 最后,可以在路由中定义一个对应的路由,指向上面创建的控制器和方法,以便在浏览器中访问。 这只是一个简单爬虫示例,实际的使用会根据具体需求进行更多的定制和功能拓展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值