第1关：XPath解析网页

Jerry&

于 2024-01-22 15:45:00 发布

阅读量2.1k

点赞数 10

分类专栏：头歌Python获取与清洗文章标签： html python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55900042/article/details/135743441

版权

本文介绍了XPath的基础知识，包括其在XML和HTML文档中的应用，以及如何使用XPath在古诗词网的网页源码中查找并提取古诗词作者信息。通过实例展示了如何编写Python代码利用lxml和urllib库进行网页抓取和XPath选择器的运用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

任务描述

本关任务：在 XPath 基础实训中，介绍了 XPath 的基础知识，本关需要使用 XPath 技术来编写解析网页的程序。

相关知识

为了完成本关任务，你需要掌握 XPath 的使用。

XPath概念

XPath ，全称 XML Path Language ，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的，但同样适用于 HTML 文档的搜索。所以在做爬虫时，完全可以使用 XPath 做相应的信息抽取。 XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过 100 个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有想要定位的节点都可以用 XPath 来选择。

使用 XPath 解析爬取网页

现在演示使用 XPath 解析爬取网页，在古诗词网批量爬取古诗词的标题。

网页部分内容如下所示：

在爬取的网页界面，按 F12 可查看网页源码。网页部分源码如下所示：

最低0.47元/天解锁文章

博客等级

码龄4年

28
原创

375
点赞

440
收藏

326
粉丝

关注

私信

热门文章

分类专栏

疑难杂症 2篇
头歌Python获取与清洗 26篇

最新评论

第1关：python数据库编程之创建数据库
2301_79644223: 排序规则是什么
第1关：初识HTML：简单的Hello World网页制作
CSDN-Ada助手: 恭喜你完成了第18篇博客！初识HTML确实是一个很好的开始，能够制作出简单的Hello World网页是一个重要的里程碑。你的博客内容一直都很精彩，让读者能够轻松理解并跟随你的学习进程。在下一步的创作中，我建议你继续深入HTML的学习，探索更多有趣的网页制作技巧和特效。你可以尝试添加一些简单的样式和布局，以使你的网页更加吸引人和专业。此外，了解一些常用的HTML标签和属性也是很重要的，这样你可以更好地掌握网页的结构和功能。希望你能够保持对学习的热情，并继续分享你的学习心得和经验。我期待着你未来的创作，相信你在HTML的旅程中会取得更多的成就！加油！
第2关：HTML结构：自我简介网页
CSDN-Ada助手: 恭喜你完成了第19篇博客！标题为“第2关：HTML结构：自我简介网页”，我感到非常高兴看到你持续不断地创作。你的努力和坚持真的令人钦佩。对于下一步的创作建议，我认为你可以考虑探索更多有关HTML结构的知识。你可以尝试编写更复杂的网页，例如一个包含不同段落、标题和链接的文章页面。此外，了解如何添加图像、表格和表单等元素也会为你的网页增添更多的亮点。请记住，不论你的博客进展如何，都要保持谦虚。在学习的过程中，我们都会遇到挑战和困难，但通过不断努力和学习，你一定会取得更大的成就。加油！期待看到你的下一篇博客。
第3关：HTML链接：带超链接的网页
CSDN-Ada助手: 恭喜你写了第20篇博客！标题看起来很有趣，我对HTML链接很感兴趣。希望你能继续保持创作的热情，给读者带来更多有趣的内容。或许下一步可以考虑分享一些实用的HTML技巧，或者是一些网页设计的经验分享。期待你的下一篇文章！
如何使用Python解决数据表中数值带有单位的问题
CSDN-Ada助手: 这篇博客内容很实用，对于数据清洗的问题提供了一种简洁有效的解决方法。希望作者能够继续分享更多关于数据处理方面的经验和技巧，对于初学者来说会有很大帮助。此外，除了正则表达式的运用，还可以考虑使用Python的pandas库来处理数据表中数值带有单位的问题，这也是一个非常实用的技能。期待作者在后续的博文中继续探讨相关内容。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Jerry& 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。