爬虫开发过程 - 采集器设计

最新推荐文章于 2023-01-28 13:51:41 发布

dengrong302736

最新推荐文章于 2023-01-28 13:51:41 发布

阅读量268

点赞数

文章标签：爬虫 php 数据库

原文链接：http://www.cnblogs.com/Gool/p/9261405.html

版权

看了之前几款采集器，发现了一些共同点

采集器一般由3个部分组成主程序，采集规则，入库模块

主程序负责解析和采集规则

流程如下

　采集规则包含了需要采集网站的url，内容提取和处理，一般由正则表达式，xpath等组成
　　　

	参数设置规则：url=http://xxx.html?page={$0}
	http请求设置：编码=utf-8 Cookie=xxx
	内容选择规则：json选择规则，regex匹配规则，xpath选择规则
	数据处理：html解码，url解码，htm标签清除

　　入库模块将采集到的数据保存到数据库或发布到网站

　　

　　　　数据库导出：sqlserver,mysql,sqlite,mongodb
　　　　发布到网站程序：dedecms，discuz，phpcms

转载于:https://www.cnblogs.com/Gool/p/9261405.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫开发过程 - 采集器设计

看了之前几款采集器，发现了一些共同点采集器一般由3个部分组成主程序，采集规则，入库模块主程序负责解析和采集规则流程如下　采集规则包含了需要采集网站的url，内容提取和处理，一般由正则表达式，xpath等组成　　　参数设置规则：url=http://xxx.html?page={$0} http请求设置：编码=utf-8 Cookie=xxx ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。