一、语言与环境
1、语言:python
2、环境:anaconda,清华园下载:安装路径不要有空格和中文字符Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source MirrorIndex of /anaconda/archive/ | 清华大学开源软件镜像站,致力于为国内和校内用户提供高质量的开源软件镜像、Linux 镜像源服务,帮助用户更方便地获取开源软件。本镜像站由清华大学 TUNA 协会负责运行维护。https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
增加中国镜像:
#展示
conda config --show channels
#安装
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
3、新建python环境,更改版本
4、打开环境
jupyter notebook
换浏览器?
二、新建python文件、重命名python文件与快捷键
1、新建
2、 重命名
点击红框位置
3、快捷键
a:向上添加文本
b:向下添加文本
dd:删除该文本
l:调出是第几行的显示
三、原始数据获取
方式:json爬虫
数据保存:
i=0
for x in res['data']:
if len(x)==0:#json在最后有空字典
pass
else:
i=i+1
print(i,x['thumbURL'])
img=requests.get(url=x['thumbURL']).content
filename=x['thumbURL'].split('/')[-1].split(',')[0].split('=')[-1]+'.jpg'#数据切割
print(filename)
with open('images/%s'%filename,'wb') as w:#需要在当前路径下新建一个images文件夹,否则报错 No such file or directory: 'images/747003091.jpg'
w.write(img)
数据删除——os库:
#可以删除文件,不可以删除文件夹
import os
import shutil
delList=[]
delDir='images/'
delList=os.listdir(delDir)
for f in delList:
filePath=os.path.join(delDir,f)
if os.path.isfile(filePath):
os.remove(filePath)
print(filePath+'was removed!')
根据搜素关键词建立文件夹把下载的图片存放到对应的文件夹下:
import os
name=input('请输入搜素对象名称:')
path='images/'+name
if os.path.exists(path):
print(path)
else:
os.mkdir(path)
封装爬虫函数并调用:
import os
name=input('请输入搜素对象名称:')
path='images/'+name
if os.path.exists(path):
print(path)
else:
os.mkdir(path)
for i in range(5):
pn=i*10
Picture_crawler(name)