记一次简单的表情包爬取_python

最新推荐文章于 2022-07-31 23:56:48 发布

无脑学c++

最新推荐文章于 2022-07-31 23:56:48 发布

阅读量1.6k

点赞数 2

文章标签：网络爬虫 python

本文链接：https://blog.csdn.net/ctrlthh/article/details/124385669

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

该博客介绍了如何使用Python的requests库爬取指定网页上的表情包，并详细展示了请求过程和所需头部信息。通过解析JSON数据获取图片路径，然后保存为本地GIF文件。需要注意请求头参数以避免被屏蔽，并正确配置保存路径。

摘要由CSDN通过智能技术生成

爬取的网页地址（逗比拯救世界）：

http://www.dbbqb.com

在这里插入图片描述

copy代码之前应先安装requests库，这里不详细介绍（不装了，本人懒得写）

利用requests库进行操作：

import requests

cookie = {
    "Cookie": "Hm_lvt_7d2469592a25c577fe82de8e71a5ae60=1650630029,1650632573,1650762170,1650771418; Hm_lpvt_7d2469592a25c577fe82de8e71a5ae60=1650771423"}
head = {
    "Web-Agent": "web",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.50",
    "Accept": "application/json",
    "Accept-Encoding": "gzip, deflate",
    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6"
}
'''header中有一条参数必须要，不确定，（懒得去试了，）不然会被屏蔽请求'''
url = "http://www.dbbqb.com/api/search/json"
url_img = "http://image.dbbqb.com/"  # 202204241523/04ba69bd460aaf922256711e5912b2ff/DGyoE
'''图片的数据库加上请求到的100条path就直接能拿到100张jpg'''
param = {"size": "100"}
resp = requests.get(url, headers=head, params=param).json()  # 拿到的是一个列表，列表里面的有100条字典转载数据
'''字典的名字从0-99'''
'''Array[100]包含了Object{}*100'''
'''开始只能拿到一条数据--》请求头不规范，被屏蔽了'''
path = []
id_ = []
for i in resp:
    path.append(i.get("path"))
    #    id_.append(i.get("id"))
    imgresp = requests.get(url_img + i.get("path")).content
    print(imgresp)
    title = (i.get("id"))
    with open("E:\doubi\{}.gif".format(title), "wb") as f:
        f.write(imgresp)
        print("保存成功")
        f.close()

利用抓包工具先抓取到二次请求的url，也就是表情包相关信息的数据包，拿到表情包所对应的url信息，然后直接用二进制格式保存就行了。