phantomjs,selenium,pyv8,pythonwebkit,,,,,,,,,,,,,

最新推荐文章于 2022-08-20 13:05:12 发布

weixin_33904756

最新推荐文章于 2022-08-20 13:05:12 发布

阅读量105

点赞数

文章标签： python 数据库爬虫

Pyv8，PythonWebKit，Selenium，PhantomJS，Ghost.py  等等。。。。

快速构建实时抓取集群[searchtb]

定义：http://i.cnblogs.com/EditPosts.aspx?opt=1

首先，我们定义一下定向抓取，定向抓取是一种特定的抓取需求，目标站点是已知的，站点的页面是已知的。本文的介绍里面，主要是侧重于如何快速构建一个实时的抓取系统，并不包含通用意义上的比如链接分析，站点发现等等特性。


在本文提到的实例系统里面，主要用到 linux+mysql+redis+django+scrapy+webkit，其中scrapy+webkit作为抓取端，redis作为链接库存 储，mysql作为网页信息存储，django作为爬虫管理界面，快速实现分布式抓取系统的原型。


名词解析：

1.  抓取环：抓取环指的是spider在存储中获取url，从互联网上下载网页，然后将网页存储到数据库里面，最后在从存储里面获取下一个URL的一个流程。 2.  Linkbase：链接库的存储模块，包含一般的链接信息；是抓取系统的核心，使用redis存储。 3.  XPATH：一门在 XML 文档中查找信息的语言，XPath 可用来在 XML 文档中对元素和属性进行遍历， 是 W3C XSLT 标准的主要元素。使用XPATH以及相关工具lib进行链接抽取和信息抽取。 4.  XPathOnClick：一个chrome的插件，支持点击页面元素，获取XPATH路径，用于编辑配置模板。 5.  Redis：一个开源的KV的内存数据库，具备很好的数据结构的特征和很高的存取性能。用于存储linkbase信息 6.  Django：爬虫管理工具，用于模板配置，系统监控反馈。Django在这里主要是用来管理一个数据库，使用Admin功能。 7.   Pagebase：页面库，主要是存储网页抓取的结果，以及页面抽取的结果，和dump交互，使用mysql实现。 8.    Scrapy：一个开源的机遇twisted框架的python的单机爬虫，该爬虫实际上包含大多数网页抓取的工具包，用于爬虫下载端以及抽取端。

weixin_33904756

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
phantomjs,selenium,pyv8,pythonwebkit,,,,,,,,,,,,,

Pyv8，PythonWebKit，Selenium，PhantomJS，Ghost.py 等等。。。。快速构建实时抓取集群[searchtb]定义：http://i.cnblogs.com/EditPosts.aspx?opt=1首先，我们定义一下定向抓取，定向抓取是一种特定的抓取需求，目标站点是已知的，站点的页面是已知的。本文的介绍里面，主要是侧重于如何快速构建一...
复制链接

扫一扫