10学会php doc88,php爬虫框架选用什么

phpspider一款优秀的PHP开发蜘蛛爬虫

关于这个爬虫的使用 下载下来之后有写好的实例 我在这里只是说一下我遇到的一个坑

// GitHub下载方式

require_once __DIR__ . '/../autoloader.php';

use phpspider\core\phpspider;

/* Do NOT delete this comment */

/* 不要删除这段注释 */

$configs = array(

'name' => '糗事百科',

'log_show' => true,

'tasknum' => 1,

//'save_running_state' => true,

'domains' => array(

'qiushibaike.com',

'www.qiushibaike.com'

),

'scan_urls' => array(

'http://www.qiushibaike.com/'

),

'list_url_regexes' => array(

"http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"

),

'content_url_regexes' => array(

"http://www.qiushibaike.com/article/\d+",

),

'max_try' => 5,

//'proxies' => array(

//'http://H784U84R444YABQD:57A8B0B743F9B4D2@proxy.abuyun.com:9010'

//),

'export' => array(

'type' => 'csv',

'file' => '../data/qiushibaike.csv',

),

//'export' => array(

//'type' => 'sql',

//'file' => '../data/qiushibaike.sql',

//'table' => 'content',

//),

// 'export' => array(

// 'type' => 'db',

// 'table' => 'content',

// ),

'db_config' => array(

'host' => '127.0.0.1',

'port' => 3306,

'user' => 'root',

'pass' => '123456',

'name' => 'spider',

),

//'queue_config' => array(

//'host' => '127.0.0.1',

//'port' => 6379,

//'pass' => '',

//'db' => 5,

//'prefix' => 'phpspider',

//'timeout' => 30,

//),

'fields' => array(

array(

'name' => "article_title",

'selector' => "//*[@id='single-next-link']//div[contains(@class,'content')]/text()[1]",

'required' => true,

),

array(

'name' => "article_author",

'selector' => "//div[contains(@class,'author')]//h2",

'required' => true,

),

array(

'name' => "article_headimg",

'selector' => "//div[contains(@class,'author')]//a[1]",

'required' => true,

),

array(

'name' => "article_content",

'selector' => "//*[@id='single-next-link']//div[contains(@class,'content')]",

'required' => true,

),

array(

'name' => "article_publish_time",

'selector' => "//div[contains(@class,'author')]//h2",

'required' => true,

),

array(

'name' => "url",

'selector' => "//div[contains(@class,'author')]//h2", // 这里随便设置,on_extract_field回调里面会替换

'required' => true,

),

),

);

$spider = new phpspider($configs);

$spider->start();

这是官网文档其中的一个实例 使用说明中描述只能通过命令行的模式运行爬虫文件

结果我运行了一下demo并没有成功

0b55150d11a6a93aab9801394bbe62f8.png

之后发现糗事百科已经换成https协议 但是代码中的路由还是http的

我抱着试试的想法改成 https

b78657fdda34886e73073eff1ee3181d.png

果然成功了 爬虫已经可以正常运行了

40a91efcb31837ab0b43cf3bde01acf7.png

具体的一下参数详情还是得看官网的文档

参考:phpspider 简单使用 - CSDN博客

https://blog.csdn.net/qq_33278933/article/details/79153640

三、phpspider的github情况

b86ad0675f4fb2e26e2a9e3dc8a8d718.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值