PHP Spider爬虫

本文介绍了如何通过Composer安装phpspider,并展示了配置和使用示例,用于爬取简书网站的内容,如标题和内容,并将数据存储到MySQL数据库中。步骤包括设置数据库连接、定义爬取的URL、解析规则和字段等。
摘要由CSDN通过智能技术生成

注意:要建立好对应的数据库字段,必须在cli模式下运行程序

1.通过composer安装phpspider

composer require owner888/phpspider

2.直接上代码

<?phprequire '/vendor/autoload.php';use phpspider\core\phpspider;//调用phpspider的配置$configs = array('name' => '简书','log_show' =>false,'tasknum' => 1,//数据库配置'db_config' => array('host'  => '127.0.0.1','port'  => 3306,'user'  => 'root','pass'  => 'root','name'  => 'demo',),'export' => array('type'  => 'db','table' => 'cof',  // 表名),//爬取的域名列表'domains' => array('jianshu','www.jianshu.com'),//抓取的起点'scan_urls' => array('https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop'),//列表页实例'list_url_regexes' => array("https://www.jianshu.com/c/\d+"),//内容页实例//  \d+  指的是变量'content_url_regexes' => array("https://www.jianshu.com/p/\d+",),'max_try' => 5,//数据库字段'fields' => array(array('name'     => "title",'selector' => "//h1[@class='title']",'required' => true,),array('name'     => "content",'selector' => "//div[@class='show-content-free']",'required' => true,),),);$spider = new phpspider($configs);$spider->start();
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值