def parse(self, response): selector = Selector(response) data = selector.xpath("//div[@class='header']/div/p")[1] header = data.xpath("string(.)").extract() print(header) info = ''.join(header).replace('2016', '2018') print(info)
打印结果:
['2016年1月1日 星期五'] 2018年1月1日 星期五
说明:
以上Selecotor获取response报文后,可以用xpath来进行处理。
因为p下面还有各种符号,无法取得所有的字符,因此中间添加了一个操作:
header = data.xpath("string(.)").extract()
来获取所有的文本,这里是整个处理的核心。
下面为了更好的格式化文本,因此进行了replace操作,其中需特别注意的是header是一个数组,并不是字符串。
因此有一个关键的数组转字符串的方法需掌握
''.join(header)