抓取
yyfwait
这个作者很懒,什么都没留下…
展开
-
scrapy入口函数的分析
博客来自:http://my.oschina.net/lpe234/blog/342741(http://doc.okbase.net/lpe234/archive/111679.html) 结合官方文档例子,简单整理一下: ? 1 2 3 4 5 6 7 8 9 10 11 12转载 2016-02-18 15:27:32 · 3899 阅读 · 1 评论 -
linux下,用crontab定时执行scrapy任务
之前尝试过很多方法用crontab执行scrapy的爬虫任务,但是都没出成功,总结下来有两点错误与相应的解决方法: 1、手动执行时,在工程目录下输入scrapy crawl xxx就可以执行爬虫脚本了,但是用crontab时,如果直接在crontab -e中输入00 00 * * * scrapy crawl xxx,定时任务是不会生效的,因为我们不知道crontab执行时,其所处的目录,很有可原创 2016-07-29 17:21:10 · 7658 阅读 · 1 评论 -
scrapy抓取动态页面的事项
最近在学习scrapy抓取动态js加载页面,写此作以记录。 scrapy需要的环境有python2.7+lxml+pyopenssl+twisted+pywin32等,网上都有教程可参考http://www.cnblogs.com/zhxhdean/p/3580224.html、http://blog.csdn.net/playstudy/article/details/17296473等等,另原创 2015-12-25 20:36:36 · 4839 阅读 · 0 评论