命令行输入
scrapy shell “www.XXXXX.com”
当shell载入后,将得到一个包含response数据的本地 response 变量,输入 response.body将输出response的包体,输出 response.headers 可以看到response的包头。
输入 response.selector 时, 将获取到一个response 初始化的类 Selector 的对象,此时可以通过使用 response.selector.xpath()或response.selector.css() 来对 response 进行查询。
启动
scrapy shell “http://hr.tencent.com/position.php?&start=0#a”
#返回 xpath选择器对象列表
response.xpath(’//title’)
[<Selector xpath=’//title’ data=u’
#使用 extract()方法返回 Unicode字符串列表
response.xpath(’//title’).extract()
[u’
#打印列表第一个元素,终端编码格式显示
print response.xpath(’//title’).extract()[0]
返回 xpath选择器对象列表
response.xpath(’//title/text()’)
<Selector xpath=’//title/text()’ data=u’\u804c\u4f4d\u641c\u7d22 | \u793e\u4f1a\u62db\u8058 | Tencent \u817e\u8baf\u62db\u8058’>
#返回列表第一个元素的Unicode字符串
response.xpath(’//title/text()’)[0].extract()
u’\u804c\u4f4d\u641c\u7d22 | \u793e\u4f1a\u62db\u8058 | Tencent \u817e\u8baf\u62db\u8058’
按终端编码格式显示
print response.xpath(’//title/text()’)[0].extract()
职位搜索 | 社会招聘 | Tencent 腾讯招聘
response.xpath(’//*[@class=“even”]’)
职位名称:
print site[0].xpath(’./td[1]/a/text()’).extract()[0]
TEG15-运营开发工程师(深圳)
职位名称详情页:
print site[0].xpath(’./td[1]/a/@href’).extract()[0]
position_detail.php?id=20744&keywords=&tid=0&lid=0
职位类别:
print site[0].xpath(’./td[2]/text()’).extract()[0]
技术类