php实现爬虫composer,第一个demo

# 第一个demo

# 第一个demo

爬虫采用PHP编写, 下面以糗事百科为例, 来看一下我们的爬虫长什么样子:

### 安装

#### 1、通过GitHub下载

```

require_once __DIR__ . '/../autoloader.php';

use phpspider\core\phpspider;

```

#### 2、通过composer下载

```

composer require owner888/phpspider

```

```

require './vendor/autoload.php';

use phpspider\core\phpspider;

```

#### 3、加上一段很讨厌的注释,别问我为什么,我就是这么讨厌 ^\_^

```

/* Do NOT delete this comment */

/* 不要删除这段注释 */

```

```

$configs = array(

'name' => '糗事百科',

'domains' => array(

'qiushibaike.com',

'www.qiushibaike.com'

),

'scan_urls' => array(

'http://www.qiushibaike.com/'

),

'content_url_regexes' => array(

"http://www.qiushibaike.com/article/\d+"

),

'list_url_regexes' => array(

"http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"

),

'fields' => array(

array(

// 抽取内容页的文章内容

'name' => "article_content",

'selector' => "//*[@id='single-next-link']",

'required' => true

),

array(

// 抽取内容页的文章作者

'name' => "article_author",

'selector' => "//div[contains(@class,'author')]//h2",

'required' => true

),

),

);

$spider = new phpspider($configs);

$spider->start();

```

爬虫的整体框架就是这样, 首先定义了一个$configs数组, 里面设置了待爬网站的一些信息, 然后通过调用`$spider = new phpspider($configs);`和`$spider->start();`来配置并启动爬虫.

#### 运行界面如下:

![](https://box.kancloud.cn/fa4ec20c57c44e640143366b196523ec_420x302.gif)

$configs对象如何定义, 后面会作详细介绍.^\_^

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值