统计每个文件夹各类图片个数1 背景2 整体思路3 读入所有文件夹4 读每个文件夹下面图片4.1 判断空文件夹有多少个5 看每个文件夹平均有多少张图片6 数据筛选6.1 筛选出big_num为0的 然后去检查一下6.2 筛选出rec_num为0的 然后去检查一下7 结论
1 背景
现在已经通过爬虫将所有商家首页的图片下载ok,但给导师汇报总的有个基本的结论吧,也就是说,多少文件夹没有图片,分为big和rec,两者任一为空有多少?均为空多少?平均每个文件夹有多少图片?这就需要去统计一波了!
2 整体思路
通过循环遍历每一个文件夹
获取一个文件夹下面所有文件的名称,然后如果出现rec或者big分别进行计数,所以一开始定义为0
每一个循环形成一个DataFrame 放到list 最后进行一个concat 大功告成
3 读入所有文件夹
import os
all_folds = os.listdir('702个美团商户上传图片/')
all_folds = [x for x in all_folds if '.' not in x]
print(len(all_folds))
all_folds[:5]
702
['150569726', '163443323', '177474079', '68654281', '178086221']
4 读每个文件夹下面图片
import pandas as pd
import time
data_need = []
t0 = time.t