爬虫实战1

HTML:爬虫编程的基础

探索 XPath:爬虫的利剑

下面是一个十分简陋的html网页,今天我们就爬取其中所有唐诗的部分作为练习

下面我们鼠标点击右键,点击“检查”

就会看到其网页代码

观察代码我们所需要的唐诗部分藏在哪里呢?

原来都藏在div.tang ul 下所有li中了(这里可能需要了解一点html部分知识,大家可以去看看上面两篇文章)

#解析本地文件使用 etree.parse
from lxml import etree

#使用lxml库的parse()函数解析了名为'xpath.html'的XML文件
tree = etree.parse('file:///C:/Users/admin/Downloads/xpath.html')

#这行代码使用XPath表达式
list1 = tree.xpath('//body/div[3]/ul/li/a/text()')

#循环遍历了XPath查询结果的列表,并打印每个项的文本内容。
for item in list1:
    print(item)

运行结果如下 

  • 12
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值