数据集下载程序
预览
dataset_downloader允许您从多个url列表下载大型数据集,例如从image-net。
您可以将下载分成两个文件夹,一个用于培训,一个用于测试。
文件保存到它们的类名中,非常适合模型培训。看起来是这样的:root:.
|
├───test
│ ├───accerola
│ ├───apple
│ └───lemon
├───train
│ ├───accerola
│ ├───apple
│ └───lemon
安装
只需从pip安装即可:pip install dataset_downloader
配置
创建包含以下内容的dataset.json文件:{"outputTrain":"...","outputTest":"...","ratio":...,"classes":{"class1":["http://url1","http://url2"],"class2":["http://url1","http://url2"],"class3":"list_images.txt"}}outputTrain:训练图像的输出文件夹
outputTest:测试图像的输出文件夹
ratio:训练/测试图像的比率。0.8相当于80%的训练图像。
classes:类及其url的列表。URL可以是URL列表、包含URL列表的文件或包含URL列表的URL
Windows计算机上的文件示例:"outputTrain":"D:/dataset/train","outputTest":"D:/dataset/test","ratio":0.8,"classes":{"accerola":["http://tiachea.files.wordpress.com/2008/10/acerolas.jpg","http://www.jardimdeflores.com.br/floresefolhas/JPEGS/A56acerola5.JPG","http://farm2.staticflickr.com/1353/4602150961_177e096984_z.jpg",],"apple":["http://www.naturalhealth365.com/images/apple.jpg","http://urbanext.illinois.edu/fruit/images/apple1.jpg","https://www.aroma-zone.com/cms//sites/default/files/plante-acerola.jpg"],"lemon":"list_images.txt","watermelon":"https://gist.githubusercontent.com/johnrazeur/645787bc08a5aedd82da9573fbfa169a/raw/49cea1ee1438cecef8ac213b20f24e5ae02d4d78/watermelon.txt"}
运行
简单调用dataset_downloader命令:cd yourdirectory
# You must create the dataset.json file before
dataset_downloader
欢迎加入QQ群-->: 979659372
推荐PyPI第三方库