python统计子文件夹内图像个数,画图分析类别长尾分布

许多分类数据集是按照文件夹名字命名类别的,比如VOC数据集:

以我自己的数据集为例,分析各个类别之间的数据平衡情况,用以下脚本实现:

import os
import matplotlib.pyplot as plt

path = 'soybeanleaf'
dirs = os.listdir(path)
num_dir = len(dirs)
num = []

for i in range(num_dir):
    file_i = os.listdir(path + '/'+ dirs[i])
    num.append(len(file_i))

print(dirs)
print(num)

d = dict(zip(dirs,num))
sort_d = sorted(d.items(),key = lambda item:item[1],reverse = True)
x = []
y = []
for it in sort_d:
    x.append(it[0])
    y.append(it[1])

plt.barh(x[0:num_dir],y[0:num_dir])
plt.yticks(fontproperties = 'Times New Roman', size = 2)
plt.savefig('leafdir.png',dpi=300)

脚本输出子文件夹的名称,以及对应文件夹下的文件个数

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值