Python实战——表情包爬虫，让你拥有数之不尽的表情包(^_^)

最新推荐文章于 2025-05-09 19:00:00 发布

三只佩奇不结义

最新推荐文章于 2025-05-09 19:00:00 发布

阅读量688

点赞数

分类专栏： python随笔文章标签： url css css3 js html5

本文链接：https://blog.csdn.net/qq_41196612/article/details/105268485

版权

python随笔专栏收录该内容

27 篇文章

订阅专栏

前言： 每次发表情包的时候总是会愁自己表情包太少了，用来用去就那些，很头疼，现在写一个爬虫爬取表情包，以后再也不用愁没表情包了！

爬取的网站网址为：表情包网址

先来看看网站长啥样
在这里插入图片描述
看到这么多表情包就很开心，一个一个保存太麻烦了，爬就完事了！

源代码：

#  _*_ coding: utf-8 _*_

'''
Author:Chen Wei

date: 23:12

Repetition is  the key to success!
'''

import time
import os
import concurrent.futures

import requests
import parsel


"""图片保存文件夹"""
dirname = 'images'
if not os.path.exists(dirname):
    os.makedirs(dirname)    # 文件不存在就新生成一个文件夹(使用的相对路径)
    os.chdir(dirname)     # 更换当前的文件夹到新创建的那个去
else:                        # 如果已经存在
    os.chdir(dirname)

def get_img_urls(url):
    """下载图片"""
    response = requests.get(url)
    html = response.text   # 网页源代码
    '''解析网页中的内容'''
    sel = parsel.Selector(html)
    divs = sel.css('.tagbqppdiv')    # 获取相应的css文件
    for div in divs:
        link = div.css('img.ui::attr(data-original)').extract_first()
        name = div.css('a::attr(title)').extract_first()
        yield link, name

def download_img(link:str,name:str):
    '''下载并保存图片'''
    try:
        suffix = link.split('.')[-1]
        response = requests.get(link)
        with open(name + '.' + suffix, mode='wb') as f:
            f.write(response.content)
    except OSError:
        print('文件名非法')

def main():
    url = 'https://fabiaoqing.com/biaoqing/lists/page/2.html'
    links = get_img_urls(url)
    for link in links:
        download_img(*link)


if __name__ == '__main__':
    executor1 = concurrent.futures.ThreadPoolExecutor(max_workers=10)    # 实例化一个由10个线程的多线程对象
    url = 'https://fabiaoqing.com/biaoqing/lists/page/{page}.html'
    links = get_img_urls(url)
    start_time = time.time()
    for link in links:
        executor1.submit(download_img,*link)     # 多线程调用
    executor1.shutdown()     # 发出让执行者释放所有资源的信号
    print(time.time() - start_time)