使用python lxml库中的xpath、etree爬取网页超链接

本文介绍了使用Python 3.7.3和lxml 4.3.3版本处理网页抓取,通过lxml.html.etree解析http://www.tipdm.com网站的菜单链接。初学者如何避开版本问题并获取链接的过程。
摘要由CSDN通过智能技术生成

python版本:3.7.3
lxml版本:4.3.3

(pip install lxml 的时候也出现了错误,最后是用 pip3 install lxml==4.3.3才下载完成的,但是感觉这俩也没有多大区别…)

因为版本原因,直接使用 from lxml import etree 导入是不可以的,所以我采用了如下:import lxml.html
etree = lxml.html.etree

最后把爬取的超链接循环打印了出来

import requests
import chardet
import lxml.html
etree = lxml.html.etree

url = 'http://www.tipdm.com' #这是一个大数据企业的网站,不是打广告!
res = requests.get(url)
res.encoding = chardet.detect(res.content)['encoding']
#print(res.text)
html = lxml.etree.HTML(res.text)
h = html.xpath('//*[@id=\"menu\"]/li/a/@href')
for i in h:
    print(i)

最后,本人还在学习与摸索当中,还请各位大神老师指点!

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值