聊天尬死名场面,你遇到过吗?教你用Python一键获取斗图表情包,晋升聊天达人

写这篇文章的灵感来源于之前和朋友的聊天,真的无力吐槽了,想发适合的表情包怼回去却发现收藏的表情包就那几个,就想着是不是可以爬取一些表情包,再也不用尬聊了。

先给大家看看我遇到的聊天最尬的场面:

在这里插入图片描述
在这里插入图片描述
斗图吧图片采集

抓取目标

工具使用

重点内容学习

项目思路分析

整理需求

简易源码分享

抓取目标

网站:斗图吧

在这里插入图片描述
工具使用

开发环境:win10、python3.7

开发工具:pycharm、Chrome

工具包:requests、etree

重点内容学习

1.Q队列储存数据信息

2.py多线程使用方法

3.xpath语法学习

项目思路分析

根据你需要的关键字搜索对应的图片数据

搜索的关键字和页数根据改变对应的url

https://www.doutula.com/search?type=photo&more=1&keyword={}&page={}

将对应的url地址保存在page队列里

  page_q = Queue()
    img_q = Queue()
    for x in range(1, 11):
        url = 'https://www.doutula.com/search?type=photo&more=1&keyword=%E7%A8%8B%E5%BA%8F%E5%91%98&page={}'.format(x)
        page_q.put(url)

在这里插入图片描述
通过xpath方式提取当前页面的url地址以及图片的名字

将提取到的图片和地址存储在img队列里

def parse_page(self, url):
        response = requests.get(url, headers=self.headers).text
        # print(response)
        html = etree.HTML(response)
        images = html.xpath('//div[@class="random_picture"]')
        for img in images:
            img_url = img.xpath('.//img/@data-original')
            # 获取图片名字
            print(img_url)
            alt = img.xpath('.//p/text()')
            for name, new_url in zip(alt, img_url):
                filename = re.sub(r'[??.,。!!*\\/|]', '', name) + ".jpg"
                # 获取图片的后缀名
                # suffix = os.path.splitext(img_url)[1]
                # print(alt)
                self.img_queue.put((new_url, filename))

在这里插入图片描述
根据图片地址下载保存图片

保存图片是要根据图片url来判断保存的后缀(我统一保存的jpg,问就是因为懒癌晚期)

整理需求

创建两个线程类,一个用来提取网页图片数据,一个保存图片数据

创建两个队列,一个保存page的url, 一个保存图片的url和名字

通过xpath的方法提取出网址的图片地址

简易源码分享

import requests
from lxml import etree
import re
from queue import Queue
import threading




class ImageParse(threading.Thread):
    def __init__(self, page_queue, img_queue):
        super(ImageParse, self).__init__()  
        self.page_queue = page_queue
        self.img_queue = img_queue
        self.headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    }


    def run(self):
        if self.page_queue.empty():
            break
        url = self.page_queue.get()
        self.parse_page(url)


    def parse_page(self, url):
        response = requests.get(url, headers=self.headers).text
        # print(response)
        html = etree.HTML(response)
        images = html.xpath('//div[@class="random_picture"]')
        for img in images:
            img_url = img.xpath('.//img/@data-original')
            # 获取图片名字
            print(img_url)
            alt = img.xpath('.//p/text()')
            for name, new_url in zip(alt, img_url):
                filename = re.sub(r'[??.,。!!*\\/|]', '', name) + ".jpg"
                # 获取图片的后缀名
                # suffix = os.path.splitext(img_url)[1]
                # print(alt)
                self.img_queue.put((new_url, filename))




class Download(threading.Thread):
    def __init__(self, page_queue, img_queue):
        super(Download, self).__init__()
        self.page_queue = page_queue
        self.img_queue = img_queue


    def run(self):


        if self.img_queue.empty() and self.page_queue.empty():
            break
        img_url, filename = self.img_queue.get()
        with open("表情包/" + filename, "wb")as f:
            response = requests.get(img_url).content
            f.write(response)
            print(filename + '下载完成')




def main():
    # 建立队列
    page_q = Queue()
    img_q = Queue()
    for x in range(1, 11):
        url = 'https://www.doutula.com/search?type=photo&more=1&keyword=%E7%A8%8B%E5%BA%8F%E5%91%98&page={}'.format(x)
        page_q.put(url)


    for x in range(5):
        t = ImageParse(page_q, img_q)
        t.start()
        t = Download(page_q, img_q)
        t.start()




if __name__ == '__main__':
    main()

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。


这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值