一个简单的图片爬虫,Python图片采集下载

一个非常简单的图片爬虫,通过一个页面的链接采集,然后访问单页面获取想要的大图,实现采集下载的目的,比较简单,由于是国外网站,访问会比较慢,推荐使用代理工具来实现。

目标网址:

https://thedieline.com/blog/2020/5/19/the-worlds-best-packaging-dieline-awards-2020-winners-revealed

网站没有什么反爬,页面结构也比较清晰以及简单,只要找准节点即可!

             

想要获取的链接有两个节点

节点一

             

xpath语法

hrefs=req.xpath('//p[@class="data-import-preserve"]/a/@href')

节点二

             

xpath语法

hrefs=req.xpath('//b[@class="data-import-preserve"]/a/@href')

通过以上两个节点应该能够获取到所有链接了,不过需要注意过滤一些无效链接,不然程序会报错或者出来无效数据。

 

图片下载超时处理

图片下载,做了一下超时处理,很简单的写法,try except处理,仅供参考。

 

爬取效果

             

采集效果

             

下载效果

             

 

附源码:

#thedieline采集
#20200520by 微信:huguo00289
# -*- coding: UTF-8 -*-
import requests,time,re
from fake_useragent import UserAgent
from lxml import etree
import os




def ua():
    ua = UserAgent()
    headers = {"User-Agent": ua.random}
    return headers


def get_urllist():
    url="https://thedieline.com/blog/2020/5/19/the-worlds-best-packaging-dieline-awards-2020-winners-revealed"
    response=requests.get(url,headers=ua(),timeout=8).content.decode('utf-8')
    req=etree.HTML(response)
    hrefs=req.xpath('//b[@class="data-import-preserve"]/a/@href')
    print(len(hrefs))
    return hrefs


def get_imgs(url):
    response = requests.get(url, headers=ua(), timeout=8).content.decode('utf-8')
    time.sleep(1)
    req = etree.HTML(response)
    title=req.xpath('//title/text()')[0]
    title=re.sub(r'[\|\/\<\>\:\*\?\\\"]', "_", title)  # 剔除不合法字符
    print(title)
    os.makedirs(f'{title}/',exist_ok=True) #创建目录
    imgs=req.xpath('//figure[@class="data-import-preserve"]/img/@src')
    print(len(imgs))
    i=1
    for img in imgs:
        img_url=img
        img_name=f'{i}.jpeg'
        bctp(title, img_url, img_name)
        i=i+1




#下载图片
def bctp(lj,img_url,img_name):
    print("开始下载图片!")
    try:
        r = requests.get(img_url,headers=ua(),timeout=5)
        with open(f'{lj}/{img_name}', 'wb') as f:
            f.write(r.content)
            print(f'下载{img_name}图片成功!')
            time.sleep(1)
    except Exception as e:
        if "port=443): Read timed out" in str(e):
            time.sleep(2)
            try:
                r = requests.get(img_url, headers=ua(),timeout=5)
                with open(f'{lj}/{img_name}', 'wb') as f:
                    f.write(r.content)
                    print(f'下载{img_name}图片成功!')
            except Exception as e:
                print(f'下载{img_name}图片失败!')
                print(f'错误代码:{e}')
                with open(f'{lj}/spider.txt', 'a+', encoding='utf-8') as f:
                    f.write(f'错误代码:{e}---下载 {img_url} 图片失败\n')
        else:
            print(f'下载{img_name}图片失败!')
            print(f'错误代码:{e}')
            with open(f'{lj}/spider.txt', 'a+', encoding='utf-8') as f:
                f.write(f'错误代码:{e}---下载 {img_url} 图片失败\n')




def run():
    hrefs=get_urllist()
    hrefs.remove("https://thedieline.com/blog/2020/5/6/-riceman")
    hrefs.remove("https://thedieline.com/blog/2020/3/6/srisangdao-rices-packaging-can-be-reused-as-tissue-box")
    hrefs.remove("https://thedieline.com/blog/2020/2/1/-revitalising-kelloggs")
    print(len(hrefs))
    for href in hrefs:
        if "https://thedieline.com" in href:
            print(f'>>>正在爬取{href},采集中...')
            try:
                get_imgs(href)
            except:
                pass


    print(f'>>>采集完成!.')


if __name__=='__main__':
    run()
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Linux Python 图片爬虫工具是一种用于在Linux操作系统上编写并执行的Python脚本,用于从网站上自动下载和保存图片数据。下面我将解释这个工具的功能和使用。 首先,该工具利用Python的功能强大和灵活性,通过使用第三方库(如BeautifulSoup和requests)从指定的网页上获取图片的URL地址。然后,它使用这些URL地址通过HTTP请求下载图片,并将其保存到本地文件系统中。 要使用这个工具,您需要在Linux操作系统上安装Python解释器以及所需的第三方库。然后,您可以编写一个Python脚本来实现图片爬取功能。脚本可以包括以下步骤: 1. 导入所需的Python库:例如,导入BeautifulSoup库用于解析网页内容,导入requests库用于发送HTTP请求。 2. 指定目标网页的URL:您可以将一个或多个网页链接作为输入。 3. 使用requests库发送HTTP请求并获取网页内容。 4. 使用BeautifulSoup库解析网页内容,并提取所有图片的URL地址。 5. 使用requests库发送HTTP请求并下载图片。您可以指定下载图片的保存路径和文件名。 6. 重复步骤3至5,直到所有图片都被下载。 7. 关闭脚本并退出。 该工具具有以下优点:免费、开源且跨平台。它可以应用于各种Web爬虫任务,如图像集合、数据采集等。此外,Python编程语言使得脚本编写和调试相对容易。 然而,请注意在使用这个工具时要遵守法律和道德规范,尊重网站所有者的权益,并尽可能避免过度请求服务器,以避免对目标网站造成不必要的负担。 总之,Linux Python 图片爬虫工具是一个功能强大且易于使用的工具,可以帮助您自动下载和保存网站上的图片数据。通过学习和掌握Python编程,您可以自定义和扩展此工具以满足各种需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值