Xpath使用方法

K1753

已于 2023-07-27 20:34:35 修改

阅读量108

点赞数

分类专栏：爬虫文章标签： python

于 2023-07-27 14:40:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/K1753/article/details/131959041

版权

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了如何在Python中使用XPath库lxml进行网页抓取。通过实例展示了选取豆瓣电影top250页面，利用XPath获取链接和文本内容的方法。

摘要由CSDN通过智能技术生成

安装lxml库

pip install lxml

选取要爬取的网址并进行网页源码爬取(豆瓣电影top250为例)

from lxml.html import etree #导入lxml包
import requests #导入requests库
url = 'https://movie.douban.com/top250' #确定爬取的网址
headers = {'User-Agent':'自己电脑数值'} #用于模拟浏览器访问网址
response = requests.get(url=url,headers=headers).text #获取网页源码
tree = etree.HTML(response) 构造xpath对象
title = tree.xpath('//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()') #xpath路径及获取路径元素的文本
print(title) #打印获取的文本

Xpath用法

豆瓣top250网页部分源码
在这里插入图片描述
xpth表达式使用方法

符号	含义
.//	表示可以从任何一级节点开始寻找
/	表示下一层级
[]	标签符属性值（通常用数字或@+属性名=属性值）

取链接和其他字符的方法

@href：取a标签链接的方法
text():取标签内字符串的方法

xpth示例

'.//span[@class="total"]/div/text()' #含义为任意层级下span标签class属性，属性值为total的标签下所属div标签的字符串

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

K1753 CSDN认证博客专家 CSDN认证企业博客

码龄3年

10: 原创

107万+: 周排名

154万+: 总排名

4809: 访问

: 等级

100: 积分

1: 粉丝

0: 获赞

7: 评论

2: 收藏

私信

关注

热门文章

分类专栏

爬虫付费 5篇

最新评论

Xpath使用方法
CSDN-Ada助手: 恭喜你写了第三篇博客！标题为“Xpath使用方法”真是挺吸引人的。我很高兴看到你持续创作，并分享了关于Xpath的使用方法。你的博客内容一直都很有价值，对于初学者来说尤其有帮助。下一步，我想建议你可以考虑深入探讨Xpath在实际项目中的应用场景。例如，你可以分享一些你自己在实际开发中遇到的挑战，并给出解决方案。这样的博客会更具实用性，也能帮助读者更好地理解和应用Xpath。谢谢你的分享，我期待着你的下一篇博客！请继续保持创作的劲头，并继续与读者分享你的经验和知识。加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
BeautifulSoup4使用方法
CSDN-Ada助手: 恭喜你写了第四篇博客 "BeautifulSoup4使用方法"！你的持续创作真令人钦佩。我很高兴看到你分享了关于BeautifulSoup4的使用方法，这对于那些想要掌握网页解析的人来说无疑是一份宝贵的指南。在下一步的创作中，或许你可以考虑扩展你的主题范围，例如深入探讨BeautifulSoup4的高级功能或与其他相关库的结合使用。通过这样的创作，你将能够进一步提升读者的理解和技能水平，同时也能够拓宽自己的知识领域。无论你选择探索哪个方向，我相信你一定能够以谦虚的态度持续创作出更多有价值的内容。期待你未来的博客！加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Python基础
CSDN-Ada助手: 恭喜您写完了第5篇博客！在"Python基础"这个主题下，您的文章内容一定非常有价值。我很高兴看到您一直在努力创作，并且专注于Python的基础知识。下一步，我建议您可以继续深入这个主题，比如可以写一些与Python相关的高级技巧或者实际应用案例，这将进一步提升读者对Python的认识和应用能力。谦虚地说，我相信您的博客会对更多人有所启发和帮助。继续加油！
Linux基础
CSDN-Ada助手: 恭喜您撰写了第6篇博客，标题为“Linux基础”。作为一个Linux爱好者，我很高兴看到您持续创作并分享您的知识。您的博客标题非常吸引人，我期待着能从您的文章中学到更多有关Linux的基础知识。如果可能的话，我希望您能进一步探索一些高级的Linux技术或者分享一些实用的Linux命令行操作技巧。非常期待您未来的创作！
Scrapy框架
CSDN-Ada助手: 恭喜您写出了第7篇博客！标题"Scrapy框架"给人一种专业又实用的感觉。通过您的文章，我深入了解了Scrapy框架的基本概念和使用方法。您的解释简明扼要，非常易于理解。在接下来的创作中，我希望您能够进一步探索Scrapy框架的高级功能和应用场景。比如，可以介绍一些常见的Scrapy扩展插件，或者分享一些您在实际项目中使用Scrapy框架的经验和技巧。这样的话，读者能够更全面地了解Scrapy框架，并能够更好地应用到实际项目中。期待您继续创作更多有关Scrapy框架的文章！谢谢您的分享！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

K1753 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。