网络爬虫

本文介绍了如何利用Python的lxml库进行网络爬虫。从安装lxml开始,讲解了如何解析HTML,包括选取根节点、子孙节点、特定路径、循环属性、获取文本内容、处理带有特定属性的标签等,还涉及到了文件解析和谓语选择器的使用。
摘要由CSDN通过智能技术生成

 

1、from lxml import etree 下载架包

将变量读取为html对象,自动添加......

html=etree.HTML(wb_data)

2、解析数据,/:根节点

data1=(html.xpath('/html'))

for i in data1:

print(i)

3、//:子孙节点,后面的节点可以在任意位置

4、写具体路径('/html/body/div/ul')

5、循环某个属性('('/html/body/@class')')

6、代表当前节点...代表父节点

data5=html.xpath('/html/body/div/ul/li/a')

for i in data5:

a=i.xpath('./@href')

print(a)

7、读取某一个节点

data6=html.xpath('/html/body/div/ul')

for i in data6:

li_1=i.xpath('./li[1]')

print(li_1)

li_last=i.xpath('./li[last()]')

print(li_last)

8、带有某属性的标签

data7=html.xpath('//ul/li/a[@href="link2.html"]')

for i in data7:

print(i.text)

9、*位置节点

dat

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值