【python爬虫】点击爬取百度图片建立分类图片数据库

sumshine_

已于 2023-09-12 11:52:00 修改

阅读量117

点赞数

文章标签： python 深度学习

于 2022-09-09 10:57:33 首次发布

本文链接：https://blog.csdn.net/sumshine_/article/details/122071848

版权

一、语言与环境

1、语言：python

2、环境：anaconda，清华园下载：安装路径不要有空格和中文字符Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source MirrorIndex of /anaconda/archive/ | 清华大学开源软件镜像站，致力于为国内和校内用户提供高质量的开源软件镜像、Linux 镜像源服务，帮助用户更方便地获取开源软件。本镜像站由清华大学 TUNA 协会负责运行维护。https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_19,color_FFFFFF,t_70,g_se,x_16

增加中国镜像：

#展示
conda config --show channels
#安装
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16

3、新建python环境，更改版本

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16

4、打开环境

jupyter notebook

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16 换浏览器？

二、新建python文件、重命名python文件与快捷键

1、新建

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16

2、重命名

点击红框位置 watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16

3、快捷键

a:向上添加文本

b:向下添加文本

dd：删除该文本

l：调出是第几行的显示

三、原始数据获取

方式：json爬虫

数据保存：

i=0
for x in res['data']:
    if len(x)==0:#json在最后有空字典
        pass
    else:
        i=i+1
        print(i,x['thumbURL'])
        img=requests.get(url=x['thumbURL']).content
        filename=x['thumbURL'].split('/')[-1].split(',')[0].split('=')[-1]+'.jpg'#数据切割
        print(filename)
        with open('images/%s'%filename,'wb') as w:#需要在当前路径下新建一个images文件夹，否则报错 No such file or directory: 'images/747003091.jpg'
            w.write(img)

数据删除——os库：

#可以删除文件，不可以删除文件夹
import os
import shutil
delList=[]
delDir='images/'
delList=os.listdir(delDir)
for f in delList:
    filePath=os.path.join(delDir,f)
    if os.path.isfile(filePath):
        os.remove(filePath)
        print(filePath+'was removed!')

根据搜素关键词建立文件夹把下载的图片存放到对应的文件夹下：

import os
name=input('请输入搜素对象名称：')
path='images/'+name
if os.path.exists(path):
    print(path)
else:
    os.mkdir(path)

封装爬虫函数并调用：

import os
name=input('请输入搜素对象名称：')
path='images/'+name
if os.path.exists(path):
    print(path)
else:
    os.mkdir(path)
for i in range(5):
    pn=i*10
    Picture_crawler(name)

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16