一淘搜索之网页抓取系统分析与实现（3）—scrapy+webkit & mysql+django

young-hz

于 2014-07-28 11:42:58 发布

阅读量7.6k

点赞数 2

分类专栏：一淘搜索系统研究一淘搜索之网页抓取系统分析文章标签：一淘分析 django webkit scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012150179/article/details/38227079

版权

一淘搜索之网页抓取系统分析同时被 2 个专栏收录

8 篇文章

订阅专栏

一淘搜索系统研究

3 篇文章

订阅专栏

结构图

scrapy+webkit：

如结构图③。
scrapy不能实现对javascript的处理，所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash.

关于scrapy+webkit的使用后期进行分析。

scrapy+django:

如结构图④。
django实现的配置界面主要是对抓取系统的管理和配置，包括：站点feed、页面模块抽取、报表系统的反馈等等。

请直接参考：
[1]快速构建实时抓取集群

[2]淘宝摘星

文章链接：http://blog.csdn.net/u012150179/article/details/38227079

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。