利用xpath爬取网页

最新推荐文章于 2024-06-06 15:13:26 发布

cuoguo_xin

最新推荐文章于 2024-06-06 15:13:26 发布

阅读量1.2w

点赞数 5

分类专栏：爬虫文章标签：爬虫 xpath

本文链接：https://blog.csdn.net/ssssdbucdbod/article/details/80992839

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

xpath应该是爬取网页最简单的方法啦，因为你需要要懂xpath，可以直接通过浏览器来获取你想要的内容。

以Chrome为例，按f12检查网页，用箭头点击自己想要的地方，比如我想提取出“故宫博物院”的xpath地址，右击，点击copy，然后选择copy xpath。这样我们就获得“故宫博物院”的xpath。

我们通过Chrome插件xpath helper来验证我们提取的xpath是否正确。

完全正确。完美。不过需要注意我们提取出的xpath是这个标签的xpath，如果我们需要提取其中的文字，我们需要在我们提取出的xpath后面加上“/text()”。

如何用python来提取出我想要的代码？这很简单，都是模板，只要按照以下的代码执行就行

import requests
from lxml import etree
import lxml
url="http://www.meituan.com/xiuxianyule/271772/"
#你需要爬取的网页
html=requests.get(url)
html.encoding="utf-8"
selecter=etree.HTML(html.text)
#将你的xpath复制到三引号里面，因为xpath里可能有双引号，所以我们加上三引号比较靠谱
s=selecter.xpath("""//*[@id="lego-widget-play-mt-poi-001-000"]/div/div[2]/div[1]/h1/text()""")
print (s)

cuoguo_xin

关注

5
点赞
踩
50

收藏

觉得还不错? 一键收藏
2
评论
利用xpath爬取网页

xpath应该是爬取网页最简单的方法啦，因为你需要要懂xpath，可以直接通过浏览器来获取你想要的内容。以Chrome为例，按f12检查网页，用箭头点击自己想要的地方，比如我想提取出“故宫博物院”的xpath地址，右击，点击copy，然后选择copy xpath。这样我们就获得“故宫博物院”的xpath。我们通过Chrome插件xpath helper来验证我们提取的xpath是否正确。完全正确。...
复制链接

扫一扫