# Xpath提取 node_list = response.xpath("//div[@class='article block untagged mb15 typs_hot']") for node in node_list: item = QiuShiItem() name = node.xpath("normalize-space(./div/a/h2/text())").extract() content = node.xpath("normalize-space(./a/div/span/text())").extract() # normalize-space可以过滤空格 print(name[0]) print(content[0])
按照我的代码只能提取红色部分内的内容,而不能提取<br>标签后的内容,想问下大神这里怎么忽略br标签而提取到整个文本信息。