# Xpath提取
node_list = response.xpath("//div[@class='article block untagged mb15 typs_hot']")
for node in node_list:
item = QiuShiItem()
name = node.xpath("normalize-space(./div/a/h2/text())").extract()
content = node.xpath("normalize-space(./a/div/span/text())").extract() # normalize-space可以过滤空格
print(name[0])
print(content[0])

按照我的代码只能提取红色部分内的内容,而不能提取<br>标签后的内容,想问下大神这里怎么忽略br标签而提取到整个文本信息。

被折叠的 条评论
为什么被折叠?



