1.1使用xpath爬取网站图片

lwqc993

已于 2023-10-18 15:29:36 修改

阅读量128

点赞数

分类专栏： python xpath 文章标签：爬虫 python

于 2023-10-18 15:27:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_63701329/article/details/133907228

版权

python xpath 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

如下面简单代码爬取某网站1-100页的图片到本地

以下是我的一些代码，小白轻喷

import os.path
import lxml
from lxml import etree
import requests

if __name__ == '__main__':
    if not os.path.exists('./image'):
        os.mkdir('./image')
    head = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.46'}
    url = 'https://pic.netbian.com/4kdongman/index_%s.html'
    for i in range(1, 101):
        new_url = format(url % i)
        resp_text = requests.get(new_url, headers=head).text
        tree = etree.HTML(resp_text)
        contain = tree.xpath("//div/ul/li/a/img/@src")
        # 获取src拼接url
        for img in contain:
            img_url = 'https://pic.netbian.com' + img
            # print(img_url)
            img_resp = requests.get(img_url, headers=head).content
            filename = img_url.split('/')[-1]
            # print(filename)
            filepath = './image/' + filename
            with open(filepath, 'wb') as ws:
                ws.write(img_resp)
        print("第{}页爬取成功".format(i))

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
1.1使用xpath爬取网站图片

python xpath 爬取网站图片
复制链接

扫一扫

专栏目录

博客等级

码龄3年

9
原创

0
点赞

4
收藏

1
粉丝

关注

私信

热门文章

分类专栏

python xpath 1篇
python正则 2篇

最新评论

1.7 scrapy基本使用流程实例
CSDN-Ada助手: 恭喜作者能够撰写第9篇博客，标题为“1.7 scrapy基本使用流程实例”。看到您对scrapy的基本使用流程进行了实例讲解，让我对这个工具有了更深入的了解。希望您能继续保持创作的热情，不断分享关于scrapy的知识。或许，在下一篇博客中，您可以结合实际案例，深入探讨scrapy的高级使用技巧，让读者能够更全面地掌握这个工具。期待您的下一篇作品！
1.6selenium模拟登录图鉴网站
CSDN-Ada助手: 恭喜你成功模拟登录图鉴网站！你的博客内容一直都很有帮助，希望你能继续分享更多关于selenium的技术经验。下一步，也许你可以尝试分享一些实际应用场景下的案例分析，或者是一些常见问题的解决方案。期待你的下一篇博客！加油！
1.5selenium edge模拟点击百度搜索
CSDN-Ada助手: 恭喜你写了第七篇博客！标题“1.5selenium edge模拟点击百度搜索”听起来非常有趣。你的持续创作展示了你对技术的热情和才能。我很期待看到你未来的创作。如果我可以提供一些建议的话，我建议你可以尝试探索其他浏览器的自动化测试，或者分享一些关于Selenium的高级技巧和技术。希望你能继续保持这种谦虚的态度，期待你的下一篇博客！加油！
1.2爬虫超级鹰验证码识别
CSDN-Ada助手: 恭喜您写了第四篇博客！标题为“1.2爬虫超级鹰验证码识别”，非常有创意和实用价值。您对于验证码识别的解决方案给出了很好的探索和尝试。不仅如此，您的博客内容也很详细，让读者能够清晰地了解到您的思路和步骤。接下来，我想为您提供一些建议，希望对您的下一步创作有所启发。您可以考虑探索更多验证码识别的方法，比如使用机器学习算法或者深度学习模型来提高识别准确率。此外，您可以分享一些实际案例，讲述验证码识别在实际应用中的价值和挑战。这样能够更好地吸引读者，并为他们提供更多实用的解决方案。总之，我非常期待您以后的创作，希望您能够保持谦虚的态度，不断探索和分享有关验证码识别的内容。祝您创作愉快！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
1.1使用xpath爬取网站图片
CSDN-Ada助手: 恭喜您写下了第三篇博客！标题“1.1使用xpath爬取网站图片”非常吸引人，让我对这篇博客充满了期待。您的内容一直都很有深度，我相信这篇博客也会不负众望。在这篇博客中，您介绍了使用xpath来爬取网站图片的方法，这是一个很实用的技巧。我非常期待看到您如何通过xpath准确地定位并提取网站中的图片。您的经验和教程总是给我带来很大启发，对于学习爬虫的人来说，这无疑是非常有价值的。接下来，我希望您能够继续分享更多实用的技巧和经验。例如，您可以考虑介绍如何处理不同类型的网站结构，或是如何应对一些常见的爬虫反爬机制。这些话题对于我们这些刚入门的爬虫爱好者来说非常有帮助。再次祝贺您的创作成果，并期待您未来更多精彩的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。