斗图图片爬取

# -*- coding:utf8 -*-
import requests
import time
from lxml import etree

class DouTu:
    def __init__(self):
        self.header = {
            "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 Firefox/47.0"
        }
    #设置header头
    def get_url(self,page):
        url = "https://www.doutula.com/photo/list/"+page
        #设置页面链接
        response = requests.get(url=url,headers=self.header).text
        #获取页面信息
        self.parse_url(response)
    def parse_url(self,response):
        html = etree.HTML(response)
        link = html.xpath('//div[@class="page-content text-center"]/div/a/@href')
        #获取详情页面的链接
        # print(link)
        for i in link:
            # print(i)
            self.parse(i)
            #将链接进行循环
            time.sleep(3)
            #设置延迟时间
    def parse(self,i):
        response = requests.get(url=i,headers=self.header).text
        #详情页面的纤细
        html = etree.HTML(response)
        name = html.xpath('//div[@class="pic-title"]/h1/a/text()')[0]
        #图片的名字
        img = html.xpath(".//*[@id='detail']/div/div[1]/li/div[3]/div/div/div/div[1]/table/tbody/tr[1]/td/img/@src")[0]
        #图片的链接
        # print(img)
        self.write(name,img)
    def write(self,name,img):
        #将推按写入文件
        try:#进行异常处理
            response = requests.get(url=img,headers=self.header).content
            #过去图片的链接信息
            with open('图片/%s' % name +'.jpg', 'wb') as f:
            #with open 打开一个文件夹加上图片名字进行存储
                f.write(response)
                print('成功')
        except:
            print('图片有问题,跳过!')
if __name__ == '__main__':
    dt = DouTu()
    for i in range(1,51):#设置分页爬取
        print("第%s页开始"%i)
        page = '?page=%s'%i
        dt.get_url(page)
        print("第%s页结束"%i)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值