使用爬虫获取imagenet下某个数据集

最新推荐文章于 2025-08-15 11:15:54 发布

叶家小右

最新推荐文章于 2025-08-15 11:15:54 发布

阅读量5.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习 python

本文链接：https://blog.csdn.net/feiye1023/article/details/74073636

本文介绍如何利用Python爬虫从imagenet网站获取URL形式的数据集，并处理不可用图片，通过提供的代码示例展示了下载和重命名的过程。

想用深度学习做分类，然后去imagenet网站上面找数据集，找到了但是都是url形式的，然后只能用python网上爬虫进行下载，折腾了一下，在别人的帮助下完成了简单的小程序。

代码如下：

# -*- coding: utf-8 -*-
"""
Created on Fri Jun 30 16:28:26 2017

@author: hello
"""
import requests
import urllib.request
import time#导入包

r=requests.get('http://www.image-net.org/api/text/imagenet.synset.geturls?wnid=n03996416')
names=r.text
url=names.split('\r\n')
imgname=[]
for i in range(0,len(url)):
    try:
        print ( url[i]+"->"+str(i+1)+'.jpg')
        imgname.append('E:/image/'+str(i+1)+