python中用xpath匹配文本段落内容的技巧

最新推荐文章于 2024-04-23 23:55:37 发布

weixin_34214500

最新推荐文章于 2024-04-23 23:55:37 发布

阅读量861

点赞数

文章标签： python 爬虫 javascript ViewUI

原文链接：http://www.cnblogs.com/longyincug/p/8433144.html

版权

content = item.xpath('//div[@class="content"]/span')[0].xpath('string(.)')

content = item.xpath('//div[@class="content"]/span//text()')

两种匹配规则，都能匹配到图中的文本段落内容：

第一种匹配到的结果是：

"content":

"\n\n\n小儿子5岁天生戏精在高铁站，一对夫妻带一男孩也5岁左右，小男孩坐地上耍赖，小夫妻与小男孩全程英语交流，坐他们对面的小儿子看的云里雾里，突然转过头跟我说，“妈妈，他们说的话我也会。”正在我惊讶之际，这小子一首“ABCDEFG……”好吧～\n\n"

第二种匹配到的结果是：

"content":

["\n\n\n小儿子5岁天生戏精", "在高铁站，一对夫妻带一男孩也5岁左右，小男孩坐地上耍赖，小夫妻与小男孩全程英语交流，坐他们对面的小儿子看的云里雾里，突然转过头跟我说，“妈妈，他们说的话我也会。”", "正在我惊讶之际，这小子一首“ABCDEFG……”", "好吧～\n\n"]

在对文本内容要求比较精确的情况下，可以将第二种规则匹配后的结果，用 "\n".join() 来对字符串列表进行处理，不会出现不连贯情况。

转载于:https://www.cnblogs.com/longyincug/p/8433144.html

关注