爬虫实战1

Traveller_man

已于 2024-05-08 18:40:05 修改

阅读量440

点赞数 12

文章标签：爬虫

于 2024-05-08 18:34:53 首次发布

本文链接：https://blog.csdn.net/Traveller_man/article/details/138580349

版权

HTML：爬虫编程的基础

探索 XPath：爬虫的利剑

下面是一个十分简陋的html网页，今天我们就爬取其中所有唐诗的部分作为练习

下面我们鼠标点击右键，点击“检查”

就会看到其网页代码

观察代码我们所需要的唐诗部分藏在哪里呢？

原来都藏在div.tang ul 下所有li中了（这里可能需要了解一点html部分知识,大家可以去看看上面两篇文章）

#解析本地文件使用 etree.parse
from lxml import etree

#使用lxml库的parse()函数解析了名为'xpath.html'的XML文件
tree = etree.parse('file:///C:/Users/admin/Downloads/xpath.html')

#这行代码使用XPath表达式
list1 = tree.xpath('//body/div[3]/ul/li/a/text()')

#循环遍历了XPath查询结果的列表，并打印每个项的文本内容。
for item in list1:
    print(item)

运行结果如下

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Traveller_man

关注关注

12
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬虫实战1

原来都藏在div.tang ul 下所有li中了（这里可能需要了解一点html部分知识）下面是一个十分简陋的html网页，今天我们就爬取其中所有唐诗的部分作为练习。观察代码我们所需要的唐诗部分藏在哪里呢？下面我们鼠标点击右键，点击“检查”
复制链接

扫一扫