python爬取斗图啦表情包

自从会了python,斗图我怕过谁

不多说上代码

# -*- coding: utf-8 -*-
# @Time  : 2020/4/11 21:40
# @Author : zhao~xiujie
# @email : zxj0314@outlook.com
# @FileName: doutu.py.py
# @IDE: PyCharm

import requests
from lxml import etree
from urllib import request
import os
import re

def parse_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',
        'Referer':'https://pos.baidu.com/wh/o.htm?ltr=',
        'Cookie':'BAIDUID=145DFF007C12683DB04A0420F47B3EEE:FG=1',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'
    }
    response = requests.get(url,headers=headers)
    text = response.content.decode('utf-8')
    html = etree.HTML(text)
    imgs = html.xpath(r'//div[@class="page-content text-center"]//img[@class!="gif"]')
    for img in imgs:
        #获取图片名字
        # print(etree.tostring(img))    #打印img
        img_url = img.get('data-original')   #获取标签中的属性值
        alt = img.get('alt')    #获取图片中文名称
        alt = re.sub(r'[\??\.。!!/]','',alt)
        suffix = os.path.splitext(img_url)[1]  #print(suffix)  #os模块下的url文本分割
        fale_name = alt + suffix    #print(fale_name) #拼接保存文件名

        #下载
        request.urlretrieve(img_url,'doutula/'+fale_name)

def main():
    for u in range(1,1000):
        url = 'https://www.doutula.com/photo/list/?page=%d' % u
        parse_page(url)
        

if __name__ == '__main__':
    main()


获得图片信息如下
爬取结果
群号:992741643。
本人微信:
在这里插入图片描述
微信群正在维护建设阶段欢迎加入,如果添加不上可加我微信拉你进群。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值