抓取某网站长臂猿图片

最新推荐文章于 2024-10-18 18:47:56 发布

～豆沙味的旺仔

最新推荐文章于 2024-10-18 18:47:56 发布

阅读量101

点赞数

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chongchujianghu3/article/details/115431594

版权

本文详细介绍了如何利用Python爬虫技术，针对特定网站进行长臂猿图片的抓取和下载。首先，讲解了安装必要的库如requests和BeautifulSoup，接着解析网页HTML结构找到图片链接，然后通过循环遍历并保存图片到本地。同时，讨论了如何处理反爬虫策略，如设置延时请求和使用代理IP。最后，提到了合法合规抓取数据的重要性，以及如何避免侵犯版权。

摘要由CSDN通过智能技术生成

import requests
from bs4 import BeautifulSoup
import os

cnt = 0
url = "https://www.ivsky.com/search.php?q=%E9%95%BF%E8%87%82%E7%8C%BF"
for i in range(1, 6):
    req1 = requests.get(url+"&page=" + str(i))
    soup = BeautifulSoup(req1.text, "lxml")
    data = soup.select("body > div > div.left > ul > li > div > a > img")

    for item in data:
        result = {
            "name": item.get("alt"),
            "link": item.get("src")
        }
        req2 = requests.get(result.get("link"))
        name = str(cnt) + "-" + result.get("name")
        folder_path = r"C:/Users/Song/Desktop/img/"
        try:
            if not os.path.exists(folder_path):
                os.makedirs(folder_path)
            file_path = folder_path + name + ".jpg"
            with open(file_path, "wb") as jpg:
                print('正在下载图片: ' + name)
                jpg.write(req2.content)
                cnt += 1
        except Exception as e:
            print(e)

～豆沙味的旺仔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

～豆沙味的旺仔 CSDN认证博客专家 CSDN认证企业博客

码龄5年

91: 原创

7万+: 周排名

125万+: 总排名

8万+: 访问

: 等级

1490: 积分

12: 粉丝

102: 获赞

13: 评论

202: 收藏

私信

关注

热门文章

分类专栏

数据挖掘 3篇
机器学习 1篇
概率统计 1篇
Git 1篇
操作系统 1篇
CNN 1篇
PAT乙级 80篇
高数
数据库 4篇
Python 6篇
树莓派 6篇
Java 10篇
C/C++ 26篇
笔记 11篇
底层原理 1篇
算法 7篇

最新评论

C++ sort函数详解（史上最完整QAQ）
程序猿皮卡丘: 作者方法三最后写错啦，系统默认是升序（看了下原文这里也写错啦QWQ）
C++ sort函数详解（史上最完整QAQ）
语风之: 优秀的博客，简洁明了
一般筛法求素数+快速线性筛法求素数
NOI RP－－: 但仔细分析能发现，这种方法会造成重复筛除合数，影响效率。比如10，在i=2的时候，k=2*15筛了一次；在i=5，k=5*6 的时候又筛了一次。所以，也就有了快速线性筛法。这一段中间写错了10应改成30
C++ sort函数详解（史上最完整QAQ）
毫无波澜的流浪: bool cmp2(Student a,Student b) { return a.id>b.id;//按照学号降序排列 //return a.id<b.id;//按照学号升序排列 } 学到了，几行代码，完美解决问题，感谢感谢
树莓派与深度学习：环境配置及镜像分享
浩浩乎@: 这是64位还是32位的系统？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

～豆沙味的旺仔 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。