0. 问题背景
前段时间,我有个朋友让我帮他从网页上自动下载些表格数据。像这个网站http://wszw.hzs.mofcom.gov.cn/fecp/fem/corp/fem_cert_stat_view_list.jsp的表格数据。其难点在于每页的url地址是不变的,有一个交互的过程,需要用户选择第几页,网页才返回数据。要是没有这个过程,用普通的wget也可以解决。
1. scrapy是一个很好的爬虫框架
我花了点时间研究scrapy怎样爬取数据,我后来发现有人已经在github上做过类似的项目,像这个http://rnp.fas.gov.ru/Default.aspx网站的表格数据,它由AmbientLighter已经实现,源代码见rnp项目。pluskid同学有篇博文介绍scrapy的,我觉得很好,链接。