scrapy shell,那接下来我们就简略的看看scrapy的第一种数据提取工具:css提取工具的用法。
那我们要提取那个数据呢?就提取:http://lab.scrapyd.cn 这个页面的title里面的数据,我们来看一下他的html结构:
<!DOCTYPE HTML> <html class="no-js"> <head> …… <meta name="applicable-device" content="pc,mobile"> <title>爬虫实验室 - SCRAPY中文网提供</title> ……
我们要提取的就是上面:
<title>爬虫实验室 - SCRAPY中文网提供</title>
这个标签里面的数据,我们最终要得到的是:
“爬虫实验室 - SCRAPY中文网提供”
这么一段字符串,那我们就循序渐进的看看我们会怎么操作,会使用哪些函数。
首先我们需要在命令行输入:
scrapy shell http://lab.scrapyd.cn
然后我们继续在命令行输入如下命令:response.css('title') ,这个格式是s