【爬虫】Yhen手把手教你爬取表情包，让你成为斗图界最靓的仔！

最新推荐文章于 2022-03-07 19:00:10 发布

@Yhen

最新推荐文章于 2022-03-07 19:00:10 发布

阅读量4.7k

点赞数 4

分类专栏： Yhen爬虫笔记文章标签： python

本文链接：https://blog.csdn.net/Yhen1/article/details/105475370

版权

Yhen爬虫笔记专栏收录该内容

11 篇文章 5 订阅

订阅专栏

以下内容为本人原创，欢迎大家观看学习，禁止用于商业用途，转载请说明出处，谢谢合作！
·作者：@Yhen
·原文网站：CSDN
·原文链接：https://blog.csdn.net/Yhen1/article/details/105475370
转载请说明此出处，侵权必究！谢谢合作！
大噶好！我是python练习时长一个月的Yhen，今天要向大家分享的是爬取表情包，让你成为斗图界最靓的仔！，特别感谢六星教育python学院，我就是在这里学的，老师讲的挺好挺仔细的，以下内容都是基于我在课堂上学到的，大家有兴趣可以到腾讯课堂报名听课，都是免费的。

文章目录

一.思路分析

今天我们的目标是把这个网站中的表情包给爬取下来
url：http://www.bbsnet.com/katong
在这里插入图片描述
我们首先来分析一下
打开我们的网页检查工具，点击左上角的按钮，然后定位到其中的一张表情包

在这里插入图片描述
可以看到，下方给我们反馈的数据中
我们的表情包是在类选择器（class）为zoom的a标签的下级标签img标签里面的src属性里面（可能有点绕，不过看着下图多读几次应该就能理解了）
图片的格式是gif，就是动图
在这里插入图片描述
那我们有思路了
首先对这个网址发送请求，获取到它里面的数据
然后解析数据，并通过标签类选择器属性提取到我们的图片地址
最后把图片保存到本地即可

那么开始写代码吧

二.代码演示

老规矩，先导包。今天我们还是会用到pyquery这个包，因为这个真的简单又好用啊哈哈哈

import requests
#从pyquery中导入PyQuery ，取别名pq
from pyquery import PyQuery as pq

然后是要获取网页的数据

网址是这个：http://www.bbsnet.com/katong
但是我们的目标是成为斗图界的大佬，只有这么一页的表情包怎么能满足我们呢？所以我们今天的目标是爬取多页表情包

首先我们来看看第二页的url和第一页的有什么不同
在这里插入图片描述
可以看到，第二页比第一页多了个后缀/page/2
那么我们是不是可以通过改变这个数据来改变页数呢？

我把2改成3

在这里插入图片描述

很好，成功得到了我们第3页的数据了

那么我们就可以通过改变这个值来自行决定我们想要的页数了
先看看我是怎么做的

# 自行输入想要的表情包页数，转换为整数格式，并赋值给a
a = int(input("请输入你想要的页数"))
# 由取头不取尾的原则。该循环会生成数值1~a，即我们想要获取的页数
for page in range(1,a+1):
    # 首页的url
    # 用.format把我们要的页码数值代入到网址中
    url ='http://www.bbsnet.com/biaoqingbao/page/{}'.format(page)
    # 请求头
    headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'}
    # 对首页发送请求
    res = requests.get(url,headers=headers).text
    print(res)

通过上面这种代码，我们就可以想下载多少页就下载多少页了

我们来打印下结果（这里以2页为例）
在这里插入图片描述
成功得到了我们两页的源码

接下来就是从这些源码中提取我们表情包的地址
再来回顾下
在这里插入图片描述
我们的表情包地址是在类选择器（class）为zoom的a标签的下级标签img标签里面的src属性里面

下面我们就用pyquery把他们取出来

# 通过类选择器zoom定位数据,然后取他的下级标签img
    img =doc(".zoom img")
    print(img)

先通过类选择器zoom定位数据,然后取他的下级标签img
我们看看结果
在这里插入图片描述
得到了很多很多的数据，可以看到我们的图片地址也在这了
但是现在看起来是不是很乱？而且很多我们不要的
没关系，现在我们就让他排好队，并提取出图片地址

# 通过类选择器zoom定位数据,然后取他的下级标签img .item()把数据返回为查询集
    img =doc(".zoom img").items()
    # print(img)
    # 遍历数据
    for x in img:
        # 通过属性“src”提取出图片的地址
        print(x.attr("src"))

我们来看看结果
在这里插入图片描述
成功得到了我们两页的表情包地址啦
我们点开一个网址看看
莫得毛病吧

然后我们对这些表情包发送请求，并保存到本地，就大功告成了

# 设置count的初始值为1
    count=1
    # 遍历数据
    for x in img:
        # 通过属性“src”提取出图片的地址
        img_url =x.attr("src")
        # 对图片地址发送请求
        res =requests.get(img_url,headers=headers)
        # 在同路径下保存为gif文件，以“ab”的方式写入 a是追加 b是进制转换
        f =open("./"+"{}.gif".format(count),"ab")
        # 将获取到的数据写入 content是进制转换
        f.write(res.content)
        # 关闭文件写入
        f.close()
        # 等价于count = 前一个count+1
        count+=1