使用python lxml库中的xpath、etree爬取网页超链接

最新推荐文章于 2024-06-14 18:34:52 发布

记着这双眼睛

最新推荐文章于 2024-06-14 18:34:52 发布

阅读量3.4k

点赞数 4

分类专栏： python爬虫文章标签： python xpath 爬虫

本文链接：https://blog.csdn.net/m0_52009869/article/details/115772420

版权

python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了使用Python 3.7.3和lxml 4.3.3版本处理网页抓取，通过lxml.html.etree解析http://www.tipdm.com网站的菜单链接。初学者如何避开版本问题并获取链接的过程。

摘要由CSDN通过智能技术生成

python版本：3.7.3
lxml版本：4.3.3

（pip install lxml 的时候也出现了错误，最后是用 pip3 install lxml==4.3.3才下载完成的，但是感觉这俩也没有多大区别…）

因为版本原因，直接使用 from lxml import etree 导入是不可以的，所以我采用了如下：import lxml.html
etree = lxml.html.etree

最后把爬取的超链接循环打印了出来

import requests
import chardet
import lxml.html
etree = lxml.html.etree

url = 'http://www.tipdm.com' #这是一个大数据企业的网站，不是打广告！
res = requests.get(url)
res.encoding = chardet.detect(res.content)['encoding']
#print(res.text)
html = lxml.etree.HTML(res.text)
h = html.xpath('//*[@id=\"menu\"]/li/a/@href')
for i in h:
    print(i)

最后，本人还在学习与摸索当中，还请各位大神老师指点！

记着这双眼睛

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
使用python lxml库中的xpath、etree爬取网页超链接

python版本：3.7.3lxml版本：4.3.3（pip install lxml 的时候也出现了错误，最后是用 pip3 install lxml==4.3.3才下载完成的，但是感觉这俩也没有多大区别…）因为版本原因，直接使用 from lxml import etree 导入是不可以的，所以我采用了如下：import lxml.htmletree = lxml.html.etree最后把爬取的超链接循环打印了出来import requestsimport chardetimport
复制链接

扫一扫