爬虫：xpath模块及昵图网实例

D11_

于 2024-08-02 20:24:38 发布

阅读量1k

点赞数 5

文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Dxh0112_/article/details/140879570

版权

xpath模块

from lxml import etree

str1 = """
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a class="test" href="link5.html">fifth item</a>111</li>
         <li class="item-0" vmid="10023898942">bsajkfhsdbfhjsdgbhfds</li>
     </ul>
 </div>
"""
# 将字符串转化为html对象
strTree1 = etree.HTML(str1)
print(strTree1.xpath('//li/text()')) #获取所有li里面的内容，这里只能获取直属li里面的内容
print(strTree1.xpath('//li/@class'))
# xpath中的下标，是从1开始的
print(strTree1.xpath('//li[3]/a/@href'))
# xpath中没有负数下标，若从右向左取，利用last获取最后一个 通过减一减二的方式获取倒数第二个倒数第三个
print(strTree1.xpath('//li[last()-1]/text()'))
# 获取指定属性值的标签
print(strTree1.xpath('//li[@class="item-1"]//text()'))

昵图网实例

from requests_html import HTMLSession
from lxml import etree

session = HTMLSession()
url = 'https://soso.nipic.com/?q=%E7%BE%8E%E5%A5%B3'

response = session.get(url)
html = etree.HTML(response.text)

imgNames = []
imgUrls = []
for i in range(1, 6):
    img_name = html.xpath(f'//ul[@id="img-list-outer"]/li[{i}]/a/img/@alt')
    img_url = html.xpath(f'//ul[@id="img-list-outer"]/li[{i}]/a/img/@data-original')
    imgNames.append(img_name[0])
    imgUrls.append('https:' + img_url[0])

for i in range(len(imgUrls)):
    with open('美女\\' + imgNames[i] + '.jpg', 'wb') as f:
        f.write(session.get(imgUrls[i]).content)  # content就是将响应转化为二进制内容

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
爬虫：xpath模块及昵图网实例

f.write(session.get(imgUrls[i]).content) # content就是将响应转化为二进制内容。print(strTree1.xpath('//li/text()')) #获取所有li里面的内容，这里只能获取。# xpath中没有负数下标，若从右向左取，利用last获取最后一个通过减一减二的方式获取倒数第二个倒数第三个。# xpath中的下标，是从1开始的。# 将字符串转化为html对象。# 获取指定属性值的标签。
复制链接

扫一扫

D11_ CSDN认证博客专家 CSDN认证企业博客

码龄1年

34: 原创

9万+: 周排名

4万+: 总排名

2万+: 访问

: 等级

666: 积分

256: 粉丝

325: 获赞

1: 评论

268: 收藏

私信

关注

热门文章

最新评论

pycharm远程连接Ubuntu服务器失败方法：Can‘t run remote python interpreter问题解决方法
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Python条件语句
CSDN-Ada助手: 非常赞赏你写的这篇关于Python条件语句的博客！你非常清楚地解释了or、and和not这些条件语句的工作原理。继续写博客可以帮助更多的人学习和理解这些概念。此外，如果你想进一步拓展你的知识和技能，可以考虑以下内容： 1. 比较运算符：在条件语句中，使用比较运算符可以对变量进行比较，例如==、!=、>、<、>=和<=。这些运算符可以帮助你更灵活地构建条件语句。 2. 嵌套条件语句：有时候，一个条件语句的执行结果可能会影响到另一个条件语句的判断，这时候可以使用嵌套条件语句来实现复杂的逻辑。 3. 真值判断：Python中的一些数据类型（如列表、字符串和字典）在条件语句中也可以被判断为真或假。了解这些数据类型的真值判断规则可以帮助你更好地使用条件语句。希望以上扩展知识能够对你的学习和写作有所帮助！继续加油，期待你的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Python 基本概念和基本数据类型
CSDN-Ada助手: 恭喜你开始写博客！标题选择得很好，Python基本概念和基本数据类型是初学者入门的必备知识。从标题来看，我期待你能够详细地介绍Python的基本概念和各种数据类型，并结合实例进行解析。同时，我建议你在下一篇博客中可以探讨一下Python的控制流语句和函数的使用，这将为读者打下更坚实的编程基础。期待你的下一篇博客！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。