简单实用的php爬虫系统

通过简单的配置就爬取到网页内容,代码在github,欢迎大家一起使用。 
* 代码提供的两个示例。由于网页改版,可能已经不能用了,下载后按自己的实际需求来修改正规提取规则。 
https://github.com/wxxiong6/crawl

php爬虫系统

  • 程序只支持CLI

安装程序

1.dbconfig.php 添加正确的数据库配置

2. 安装程序

php run install1

启动程序

安装完成后,在setting表添加来源站点及正则提取规则。

启动程序 (参数是 setting 表id)

php run run 1 1

清除项目数据

PHP 
php run clear 

完整代码目录

“`PHP

│ crawl.sql 
│ LICENSE 
│ README 
│ run 系统入口程序 
│ 
├─code 
│ ├─config 配置文件 
│ │ config.php 
│ │ dbconfig.php 
│ │ 
│ └─library 类库 
│ │ App.php 
│ │ Crawl.php 
│ │ CrawlCallback.php 
│ │ Import.php 
│ │ Loader.php 
│ │ 
│ └─db 数据库 
│ MysqlPDO.php 
│ 
├─data 数据 
│ 
├─log 日志目录 
│ 
├─tmp 
└─web web目录

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值