![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Kaggle
Jayden yang
光子捕手
展开
-
找出数据集中出现样本个数最多与最少的10个类别
前面我们通过可视化手段看到每个类别中训练集图片数量是不均匀的,我们需要将数目最多和最少的10个类别找出来,进行相应的处理!代码实现如下:import sys, os, multiprocessing, urllib3, csvfrom PIL import Imagefrom io import BytesIOfrom tqdm import tqdmimport jsonfro...原创 2019-05-09 17:24:54 · 1522 阅读 · 0 评论 -
json文件中数据类别个数统计与类别信息可视化
将json文件保存的数据信息利用URL下载数据以后,希望将统计出数据集中每一类图片个数,且进行可视化,看数据分布是否均匀,然后在进行相应的操作。数据还是kaggle比赛中提供的数据集,json文件内容如下:python实现上述要求:#导入相应的包,有些不一定用到import sys, os, multiprocessing, urllib3, csvfrom PIL impor...原创 2019-05-09 17:18:44 · 3022 阅读 · 0 评论 -
利用URL下载json文件中包含的数据集
第一次参加kaggle竞赛,因为数据集很大,所以数据集是放在json文件中的。形式为:我们需要读取json文件并利用url下载数据集,代码如下:import sys, os, multiprocessing, urllib3, csvfrom PIL import Imagefrom io import BytesIOfrom tqdm import tqdmimport...原创 2019-05-07 14:44:56 · 3995 阅读 · 1 评论