1,爬虫框架结构
爬虫的准备知识,已经普及完毕,那么接下来从整体的角度把握一下爬虫:
这是选自《自己动手写爬虫》一书的一张图,所有的爬虫都离不开这个框架,工程的巨大只是由于你实现较为复杂,但是整体这个架构还是不会变。
2,常见的爬虫框架
C++:Labin
Java:Nutch(分布式处理),Heritx
Python:scripy
这些爬虫框架,提供了较为友好的api,现在也一直有着良好的管理者和使用者,如果你打算站在巨人的肩膀上,就不用再读接下来的文章了,因为擅长布置nutch爬虫的您,想必未来也是互联网spider的新宠,所以就不用往下看了。