Python爬虫第三天

最新推荐文章于 2023-12-04 23:15:00 发布

垃圾桶里也挺好

最新推荐文章于 2023-12-04 23:15:00 发布

阅读量335

点赞数

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maelee/article/details/122396282

版权

本文介绍了Python爬虫中XPath解析的相关知识，包括XPath的用途、安装lxml库、XPath的基本语法，如提取标签、属性及循环提取，并提供了一个在ZOL桌面壁纸网站抓取图片链接的实践例子。

摘要由CSDN通过智能技术生成

五.xpath解析

xpath是针对xml创建的表达式语言，可以从xml中直接提取到数据，但是我们提取到的网页源代码是html，html是xml的子集，xpath也就可以直接提取html中的内容。

xpath适合对标签的提取，而re模块适合对一堆字符串的提取。

1.安装lxml库

需要安装lxml库

pip install lxml

教程用的html文件

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>
    <span>我爱你</span>
    <ul>
        <li><a href="http://www.baidu.com">百度</a></li>
        <li><a href="http://www.google.com">谷歌</a></li>
        <li><a href="http://www.sogou.com">搜狗</a></li

最低0.47元/天解锁文章

垃圾桶里也挺好

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

垃圾桶里也挺好 CSDN认证博客专家 CSDN认证企业博客

码龄4年

28: 原创

75万+: 周排名

193万+: 总排名

1万+: 访问

: 等级

294: 积分

35: 粉丝

11: 获赞

5: 评论

37: 收藏

私信

关注

热门文章

最新评论

Python爬虫第三天
去你大爷的蛋: 请问一下，在网页源代码里面复制class='pic-list2 clearfix'，为什么会报错而，复制你这个代码里的class='pic-list2 clearfix'没有报错？问题出在那里？
dosbox汇编环境&turboC环境配置
垃圾桶里也挺好: 有用就行（开心）
dosbox汇编环境&turboC环境配置
m0_51932254: 谢谢大佬完美解决了泪目
QT第二天
快乐麦肯: QT从入门到入土！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。