XPath总结笔记

大数据采集及分析RPA

已于 2022-07-05 12:10:41 修改

阅读量112

点赞数 1

分类专栏：爬虫数据采集网络爬虫文章标签： python

于 2022-07-05 00:22:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27109535/article/details/125610856

版权

接下来我们来讲提取细节，首先加载库

from lxml import etree

提取标签内容， /text()[0]或者/string()[0]
提取标签属性值， /@属性名
*表示任意节点
,@*表示任何属性,
node()表示任意节点

在这里插入图片描述

1. 解析html流程说明

url_02 = 'https://www.qdfd.com.cn/qdweb/realweb/fh/FhProjectInfo.jsp'
data_02 = {
   'projectID': shuzi_01}
response_02 = requests.post(url_02, data=data_02,headers=header)
if response.status_code == 200:
	response_02.encoding = 'GBK'
	sleep(random.uniform(0.2, 0.3))  # 生成一个a到b的小数等待时间
	# 请求是否成功
	# print(response_02.status_code)
	
	html_02 = etree.HTML(response_02.text)
	
	
	# #/html/body/div[1]/div[2]/ul[2]/table[2]/tbody/tr[position()>1]/td[2]/a
	shuzi_2 = html_02.xpath('/html/body/div[1]/div[2]/ul[2]//tr[position()>1]/td[2]/a')

a = '''<title>标题</title>
<body>
    <ul class='list1'>
        <li>列表1第1项</li>
        <li>列表1第2项</li>
    </ul>
    <p class='first'>文字1</p>
    <p class='second'>文字2</p>
    <ul class='list2'>
        <li>列表2第1项</li>
        <li>列表2第2项</li>
    </ul>
</body>'''

from lxml import etree
html = etree.HTML(a)
html.xpath('//title/text()')[0] # '标题'
html.xpath("//p[@class='first']//text()")[0] # '文字1'
html.xpath(</

最低0.47元/天解锁文章

大数据采集及分析RPA

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
3
评论
XPath总结笔记

XPath总结笔记
复制链接

扫一扫

专栏目录

大数据采集及分析RPA CSDN认证博客专家 CSDN认证企业博客

码龄9年

130: 原创

5927: 周排名

1万+: 总排名

12万+: 访问

: 等级

1724: 积分

514: 粉丝

254: 获赞

72: 评论

292: 收藏

私信

关注

热门文章

分类专栏

最新评论

python实现表格批量url替换成图片
大数据采集及分析RPA: 报错时KeyError: '.mpo'，需要加入下面的两行代码到做前面 [code=python] from PIL import JpegImagePlugin JpegImagePlugin._getmp = lambda x:None [/code]
pycharm导入库时红色波浪线的解决方案
扑朔シ迷离: 神奇，弄好了
python判断大图中包含小图并输出位置总结
CSDN-Ada助手: 不知道 OpenCV 技能树是否可以帮到你：https://edu.csdn.net/skill/opencv?utm_source=AI_act_opencv
python的文章高词频分析总结
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Selenium中driver.switch_to使用
cqutlqxjy: 博主知道如何driver.switch_to到谷歌扩展的窗口吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据采集及分析RPA 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。