【数据分布】分类任务中的数据分布分析(实战)

分类任务中分析数据分布,分析样本是否均衡等。以下为例,目录如下:

train
    1
    2
    3
   ...
    n

train目录下,包含n个类,每个类目录下,有很多图片。我们的目的是统计目录下的数目,然后画直方图:

'''
@author: mengting gu
@contact: 1065504814@qq.com
@time: 2021/4/26 下午3:40
@file: data_distribute.py
@desc: 
'''
import os
import matplotlib.pyplot as plt

def file_list_data_distribute(filelist):
    """

    Parameters
    ----------
    filelist : train | id1, id2, id3

    Returns : [len(id1), len(id2), len(id3)]
    -------

    """
    d = {}
    for i, files in enumerate(os.listdir(filelist)):
        num_files_rec = 0
        jpg_path = os.path.join(filelist, files)
        print("jpg_path : {}".format(jpg_path))
        for file in os.listdir(jpg_path):
            if file[-4:] == ".jpg":
                num_files_rec += 1
            # print("file : {}".format(file))
        d[str(i)] = num_files_rec
    print(d)
    return d


if __name__ == '__main__':
    file_path = "./train/"
    d = file_list_data_distribute(filelist=file_path)
    plt.bar(d.keys(), d.values())
    plt.show()
    # plt.hist(d.values(), bins=20, edgecolor='k', alpha=0.7)  # 设置直方边线颜色为黑色,不透明度为 0.35
    # plt.show()

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wait a minutes

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值