爬虫爬取图库

在做深度学习的时候突然发现一个问题,除了一些网站提供的数据集之外,我该如何获取自己的数据集呢?于是我想到了爬虫,之前也没接触过爬虫,但是那有什么关系,算法的可是站在鄙视链顶端的存在,爬个图片还不是小case。于是我花了两天时间研究了下爬虫,原来天下的坑都是一般的深,我爬取的网站是“http://699pic.com/”,也就是下面这个摄图网。

在爬取这个网站的时候,首先你要找到你的‘user-Agent‘,然后把它作为请求网页的一个参数,不然人家不让你爬,在浏览器中输入“about://version”,然后就可以看见你的用户代理,复制下来就行

 

下面上代码,

import requests
import urllib
from bs4 import BeautifulSoup

headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE"
 }
cookies={'cookies':''}

def getImage(word):
#这里拼凑成一个url
    url='http://699pic.com/tupian/'+word+'.html'
#这里获取网站的源码,源码主要是很长的一段html格式的字符串
    r=requests.get(url)
#BeautifulSoup这个库可以解析html格式的字符串,把网页的源码解析成一个个类,然后你就可以依次去访问它#的属性,比如head,div,src等等
    soup = BeautifulSoup(r.content,'html.parser')
#这里就是对BeautifulSoup的运用了
    all_a = soup.find_all('div',class_='list')
    for i in range(len(all_a)):
        imgurl=all_a[i].img.attrs['data-original']
#这里获得的imgurl是图片的网站,一个网站一张图片,然后通过urllib里面的urlretrieve的这个函数把图片下#载到本地
        urllib.urlretrieve(imgurl, 'D://img//%s.jpg'%i)

if __name__ == '__main__':
    getImage('feiji')

简单吧!比看网络简单吧O(∩_∩)O哈哈~,下面是我下的图

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值