记一次对Pixiv日榜的爬虫

Pixiv是个啥

pixiv是一个以插图、漫画和小说、艺术为中心的社交网络服务里的虚拟社区网站。于2007年9月10日推出第一个测试版。公司总部位于日本东京都涩谷区千驮谷。pixiv创办初衷是为全球艺术家提供一个能发表他们的作品,并透过评级系统反应其他用户意见的地方。网站以用户投稿的原创图画为中心,辅以标签、书签、作品回应、排行榜等功能形成具有其特色的社交网络。
-----摘自 百度百科

爬虫过程

##PS:由于pixiv的特殊性,访问该网站需要某种工具(笑)##

按照以往爬虫经验,以为爬pixiv依旧是一件很容易的事情,于是按照常规导入库:

import requests#爬虫必备库
import re#正则表达式提取链接等
import time#加入延迟

自定义使用浏览器headers:

headers = {
   
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'
}#防止反爬

找到pixiv的日榜网页链接:
找到链接

使用requests.get.text获取该页面的网页源代码:

response_1 = requests.get("https://www.pixiv.net/ranking.php?mode=daily",headers=headers)#请求该网页
daily_list = response_1.text#获取pixiv日榜的网页的源代码

进入到日榜页面,右键查看网页源代码;
找到相似结构,data-id后跟的是榜单图片的id:
找到id
因为有相似性,因此可以使用正则表达式可以提取出图片id:

ID = re.findall('"data-type=".*?"data-id="(.*?)"',daily_list)#获取日榜图片的id
print (ID)#打印id检查是否成功

id获取成功:
在这里插入图片描述
随便点进两张张图片,观察其网址可发现除id外网址相同:

  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值