爬虫爬取图库

最新推荐文章于 2022-03-02 22:37:58 发布

Nash_String

最新推荐文章于 2022-03-02 22:37:58 发布

阅读量939

点赞数 1

分类专栏： caffe 文章标签：爬虫图片获取深度学习

本文链接：https://blog.csdn.net/qq_37333087/article/details/81635351

版权

caffe 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在做深度学习的时候突然发现一个问题，除了一些网站提供的数据集之外，我该如何获取自己的数据集呢？于是我想到了爬虫，之前也没接触过爬虫，但是那有什么关系，算法的可是站在鄙视链顶端的存在，爬个图片还不是小case。于是我花了两天时间研究了下爬虫，原来天下的坑都是一般的深，我爬取的网站是“http://699pic.com/”，也就是下面这个摄图网。

在爬取这个网站的时候，首先你要找到你的‘user-Agent‘，然后把它作为请求网页的一个参数，不然人家不让你爬，在浏览器中输入“about://version”,然后就可以看见你的用户代理，复制下来就行

下面上代码,

import requests
import urllib
from bs4 import BeautifulSoup

headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE"
 }
cookies={'cookies':''}

def getImage(word):
#这里拼凑成一个url
    url='http://699pic.com/tupian/'+word+'.html'
#这里获取网站的源码，源码主要是很长的一段html格式的字符串
    r=requests.get(url)
#BeautifulSoup这个库可以解析html格式的字符串，把网页的源码解析成一个个类，然后你就可以依次去访问它#的属性，比如head，div，src等等
    soup = BeautifulSoup(r.content,'html.parser')
#这里就是对BeautifulSoup的运用了
    all_a = soup.find_all('div',class_='list')
    for i in range(len(all_a)):
        imgurl=all_a[i].img.attrs['data-original']
#这里获得的imgurl是图片的网站，一个网站一张图片，然后通过urllib里面的urlretrieve的这个函数把图片下#载到本地
        urllib.urlretrieve(imgurl, 'D://img//%s.jpg'%i)

if __name__ == '__main__':
    getImage('feiji')

简单吧！比看网络简单吧O(∩_∩)O哈哈~，下面是我下的图

Nash_String

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
爬虫爬取图库

在做深度学习的时候突然发现一个问题，除了一些网站提供的数据集之外，我该如何获取自己的数据集呢？于是我想到了爬虫，之前也没接触过爬虫，但是那有什么关系，算法的可是站在鄙视链顶端的存在，爬个图片还不是小case。于是我花了两天时间研究了下爬虫，原来天下的坑都是一般的深，我爬取的网站是“http://699pic.com/”，也就是下面这个摄图网。在爬取这个网站的时候，首先你要找到你的‘user-A...
复制链接

扫一扫