准备阶段
注:项目需要的所有指令均在cmd终端窗口或者shell终端键入。
一、输入指令scrapy startproject project_name创建scrapy项目
此命令会在当前路径下创建一个指定的项目,并在项目文件目录中生成scrapy爬虫需要的各个py文件,包括items.py、piplines.py、settings.py等。
二、输入指令scrapy genspider spider_name http://example/com生成爬虫文件
此命令会在spider_name.py建立对应的Spider类并生成parse方法以及需要用到的常用变量(最常用的是response),之后便能在parse方法中编写代码
三、在终端命令窗口运行scrapy shell http://example.com命令。
此命令将得到网站对应的Response对象和Request对象并进入Python的执行环境。
此外该命令下还有几个常用的函数:
fetch(req_or_url):用于下载页面,可传入一个Request对象或url字符串,调用后会更新变量request和response;
view(response):该函数会打开爬虫下载的页面并在浏览器中显示;
四、经过第三步之后便可以使用其获得的Response对象进行页面数据的解析提取,用response.xpath(),或者response.css(),如前所述,我们可以使用fetch方法来获取新的页面的Response和Request对象。
在这里介绍XPath和CSS用法。
4.1 Xpath常用基本语法