爬虫 xpath() 基础+提升必备秘籍超详细建议保留

最新推荐文章于 2024-06-06 15:13:26 发布

阿里P6+

最新推荐文章于 2024-06-06 15:13:26 发布

阅读量617

点赞数 14

分类专栏： 2024年程序员学习文章标签：爬虫

本文链接：https://blog.csdn.net/m0_55025322/article/details/137504653

版权

2024年程序员学习专栏收录该内容

252 篇文章 1 订阅

订阅专栏

xpath_通用规则

from lxml import etree

import requests

url=“网站地址”

headers={

“User-Agent”:

“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36”

}

response=requests.get(url,headers=headers)

print(response.text)

#初始化xpath etree 可以自动修正文本

html=etree.HTML(response.text,etree.HTMLParser())

html=etree.HTML(response.text)

result=etree.tostring(html)

KK=result.decode(“utf-8”)

print(KK)

结果：

在这里插入图片描述

**response.text 获取文本

result=etree.tostring(html) 中etree函数是使获取的html文本自动格式化，不然获取的html文档是乱糟糟的**

可以发现获取的是一长段，整个网页的html，下面我们将对这些html进行一些操作和匹配，取出需要的数据，粗略看了一下，国外的网站，基本上没有发现中文。（用国内网访问竟然非常丝滑）

定位所有节点

from lxml import etree

import requests

url=“网站地址”

headers={

“User-Agent”:

“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36”

}

response=requests.get(url,headers=headers)

print(response.text)

#xpath()进行节点定位

result=html.xpath(‘//*’)

#xpath 进行 li节点

result1=html.xpath(‘//li’)[0]

print(result)

print(“*”*88)

print(result1)

结果：

在这里插入图片描述

定位子节点

from lxml import etree

import requests

url=“网站地址”

headers={

“User-Agent”:

“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36”

}

response=requests.get(url,headers=headers)

print(response.text)

选取所有子节点 li节点下的a节点（标签）

result=html.xpath(‘//li/a’) # / 子节点

#选取所有子节点

result1=html.xpath(‘//li//a’) # // 子孙节点

print(result)

result2=html.xpath(‘.//ul//a’)

print(result2)

结果

在这里插入图片描述

定位父节点

from lxml import etree

import requests

url=“网站地址”

headers={

“User-Agent”:

“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36”

}

response=requests.get(url,headers=headers)

print(response.text)

… 寻找父节点

result=html.xpath(‘//a[@href=“/sites/silvia-sguotti”]/…/@class’)

print(result)

result2=html.xpath(‘//a[@href=“/sites/silvia-sguotti”]/parent:😗/@class’)

print(result2)

//a[@href=“/sites/silvia-sguotti”]/…/@class

指的是//当前所选中的子孙节点a节点且class

属性为"/sites/silvia-sguotti",当前节点的父节点

result2也是同一个意思，不过就是方法复杂些，一般不使用

在这里插入图片描述

结果

在这里插入图片描述

属性匹配

from lxml import etree

import requests

url=“网站地址”

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
[外链图片转存中…(img-8ZDw911X-1712552225635)]

阿里P6+

关注

14
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
爬虫 xpath() 基础+提升必备秘籍超详细建议保留

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
复制链接

扫一扫