【python爬虫】点击爬取百度图片建立分类图片数据库

一、语言与环境

1、语言:python

2、环境:anaconda,清华园下载:安装路径不要有空格和中文字符Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source MirrorIndex of /anaconda/archive/ | 清华大学开源软件镜像站,致力于为国内和校内用户提供高质量的开源软件镜像、Linux 镜像源服务,帮助用户更方便地获取开源软件。本镜像站由清华大学 TUNA 协会负责运行维护。https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_19,color_FFFFFF,t_70,g_se,x_16

 增加中国镜像: 

#展示
conda config --show channels
#安装
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16

3、新建python环境,更改版本

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16

4、打开环境 

jupyter notebook

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16 换浏览器?

 

二、新建python文件、重命名python文件与快捷键

1、新建

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16

2、 重命名

点击红框位置watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16

3、快捷键

a:向上添加文本

b:向下添加文本

dd:删除该文本

l:调出是第几行的显示

 

三、原始数据获取

方式:json爬虫

数据保存:

i=0
for x in res['data']:
    if len(x)==0:#json在最后有空字典
        pass
    else:
        i=i+1
        print(i,x['thumbURL'])
        img=requests.get(url=x['thumbURL']).content
        filename=x['thumbURL'].split('/')[-1].split(',')[0].split('=')[-1]+'.jpg'#数据切割
        print(filename)
        with open('images/%s'%filename,'wb') as w:#需要在当前路径下新建一个images文件夹,否则报错 No such file or directory: 'images/747003091.jpg'
            w.write(img)

 数据删除——os库:

#可以删除文件,不可以删除文件夹
import os
import shutil
delList=[]
delDir='images/'
delList=os.listdir(delDir)
for f in delList:
    filePath=os.path.join(delDir,f)
    if os.path.isfile(filePath):
        os.remove(filePath)
        print(filePath+'was removed!')

根据搜素关键词建立文件夹把下载的图片存放到对应的文件夹下:

import os
name=input('请输入搜素对象名称:')
path='images/'+name
if os.path.exists(path):
    print(path)
else:
    os.mkdir(path)

 封装爬虫函数并调用:

import os
name=input('请输入搜素对象名称:')
path='images/'+name
if os.path.exists(path):
    print(path)
else:
    os.mkdir(path)
for i in range(5):
    pn=i*10
    Picture_crawler(name)

 watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc3Vtc2hpbmVf,size_20,color_FFFFFF,t_70,g_se,x_16

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值