以爬虫初学者训练爬虫技术的网站(http://books.toscrape.com)为例
以页面的url地址为参数运行scrapy shell 命令:
>>> scrapy shell http://books.toscrape.com
可以使用view(response)命令打开页面
#提取链接
>>> from scrapy.linkextractors import LinkExtractor
#使用CSS选择器进行选择
>>> le = LinkExtractor(restrict_css='div.image_container a[href]')
>>> links = le.extract_links(response)
>>> [link.url for link in links]
对其他元素进行分析同理…