【Python爬虫案例】全套爬虫案例+数据可视化项目汇总零基础入门全套爬虫案例-案例四 表情包

视频源自B站,讲解得非常好,感谢星越编程,B站视频网址如下:
https://www.bilibili.com/video/BV1zg411A731?p=5
Pycharm源选清华的,比较快

#learner:stupid_gao
#公众号:easycoder
#software:Pycharm
"""
文件说明:表情包获取
    爬虫:
        第一步:寻找目标数据源
        第二步:分析网页结构
        第三步:建立链接、解析数据
        第四步:保存数据

    网址:http://www.bbsnet.com/biaoqingbao

    反爬虫:验证码(手机短信),滑块、验证身份信息

    请求与响应:
        客户端:
        服务端: 看不见,发起请求,得到响应
    字典:数据类型


"""
#第一步 使用Python访问斗图网,获取源代码
#导入库(工具包)
import requests #用于建立网络链接
from pyquery import PyQuery as pq #比xpath还要灵活的html网页解析工具
#定义请求头
headers = {
     "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
     "Cookie":"wp_xh_session_16c522c7d534bf6487d9468a3bd29107=598c278323066fe7c7f5506757b24ef9%7C%7C1639796360%7C%7C1639792760%7C%7C47e1811237ad493572a3a3854ff17f8e",
     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4768.0 Safari/537.36"
}
#第一步使用Python访问斗图网网址,获取源代码,获取网址带了一个请求头
html = requests.get("http://www.bbsnet.com/biaoqingbao", headers=headers).text
#第二步骤:分析网页结构,提取图片,img标签里面
#将数据加载到工厂里
data = pq(html)
#抽取出img图片标签
ret = data(".thumbnail a img").items() #页面标签thrmbnail a img
#通过循环提取每一个
for i in ret:
     #print(i.attr("src"))
     addr = i.attr("src")
     #图片名称
     name = i.attr("alt")
     #print("图片得名称是%s,图片的地址%s"%(name,addr))
     #访问链接获取内容
     img_data = requests.get(addr).content
     #保存图片
     with open("./emoji/%s.gif"%name,"wb")as file:
          file.write(img_data)
     print("<表情包:%s>保存成功!"%name)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值