背景
看小甲鱼视频时,在爬虫部分提到scrapy框架。于是找更多文章来读,碰巧在知乎上发现一个较好的教程:
Scrapy爬虫框架教程1–Scrapy入门
Scrapy爬虫框架教程2–爬取豆瓣电影TOP250
Scrapy爬虫框架教程3–调试(Debugging)Spiders
Scrapy爬虫框架教程4–抓取AJAX异步加载项
这个教程讲得还是挺详细的。一步一步跟着教程做,可以实现爬取豆瓣电影榜单的功能,掌握scrapy的基本用法。只是其中有两个小问题,我会在下面列出来。
我认为难点在于学会使用XPath函数,以及Scrapy框架源码。关于源码,这几篇文章讲的不错:
Scrapy源码分析
作者较详细地分析了Scrapy内部的模块构成,模块之间的协同方式,以及源码的细节。只有知道源码,才能在scrapy框架的基础上二次开发出更适合自己需求的框架,阅读源码也是最好的学习方式。
不仅这个系列