Django是web框架,python写的,搭配Scrapy,可以实现抓取页面
可以参考这种配置:
linux+mysql+redis+django+scrapy+webkit,其中scrapy+webkit作为抓取端,redis作为链接库存储,mysql作为网页信息存储,django作为爬虫管理界面,快速实现分布式抓取系统的原型。
http://www.searchtb.com/2011/07/%E5%BF%AB%E9%80%9F%E6%9E%84%E5%BB%BA%E5%AE%9E%E6%97%B6%E6%8A%93%E5%8F%96%E9%9B%86%E7%BE%A4.html
今天想在c++程序里调用scrapy,用批处理方式或者CreateProcess创建进程的方式可以调用cmd命令,但一开始运行显示:scrapy不是内部命令或运行程序,后来发现python26\Srcipts目录下的scrapy.bat的作用是 将 scrapy作为可直接运行的命令,所以就在原来的批处理文件中,先运行scrapy.bat,再运行scrapy crawl 等命令。