记一次简单的表情包爬取_python

爬取的网页地址(逗比拯救世界):

http://www.dbbqb.com

在这里插入图片描述

copy代码之前应先安装requests库,这里不详细介绍(不装了,本人懒得写)

利用requests库进行操作:

import requests

cookie = {
    "Cookie": "Hm_lvt_7d2469592a25c577fe82de8e71a5ae60=1650630029,1650632573,1650762170,1650771418; Hm_lpvt_7d2469592a25c577fe82de8e71a5ae60=1650771423"}
head = {
    "Web-Agent": "web",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.50",
    "Accept": "application/json",
    "Accept-Encoding": "gzip, deflate",
    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6"
}
'''header中有一条参数必须要,不确定,(懒得去试了,)不然会被屏蔽请求'''
url = "http://www.dbbqb.com/api/search/json"
url_img = "http://image.dbbqb.com/"  # 202204241523/04ba69bd460aaf922256711e5912b2ff/DGyoE
'''图片的数据库加上请求到的100条path就直接能拿到100张jpg'''
param = {"size": "100"}
resp = requests.get(url, headers=head, params=param).json()  # 拿到的是一个列表,列表里面的有100条字典转载数据
'''字典的名字从0-99'''
'''Array[100]包含了Object{}*100'''
'''开始只能拿到一条数据--》请求头不规范,被屏蔽了'''
path = []
id_ = []
for i in resp:
    path.append(i.get("path"))
    #    id_.append(i.get("id"))
    imgresp = requests.get(url_img + i.get("path")).content
    print(imgresp)
    title = (i.get("id"))
    with open("E:\doubi\{}.gif".format(title), "wb") as f:
        f.write(imgresp)
        print("保存成功")
        f.close()

利用抓包工具先抓取到二次请求的url,也就是表情包相关信息的数据包,拿到表情包所对应的url信息,然后直接用二进制格式保存就行了。

注:

1.请求表情包url的时候请求头里的参数记得带上,不然应该会被屏蔽。
2.我最后保存的地址在E盘,copy的时候记得进行对应修改

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值