记一次对Pixiv日榜的爬虫

最新推荐文章于 2024-06-11 09:55:42 发布

終夢

最新推荐文章于 2024-06-11 09:55:42 发布

阅读量2.3k

点赞数 7

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/owaranaiyume/article/details/114667736

版权

本文记录了一次尝试爬取Pixiv日榜图片的过程，包括设置浏览器headers、提取图片id、构造下载链接以及遇到403错误后的解决方案。通过调整数据类型和参考他人经验，成功解决403问题。

摘要由CSDN通过智能技术生成

Pixiv爬虫

Pixiv是个啥
爬虫过程

Pixiv是个啥

pixiv是一个以插图、漫画和小说、艺术为中心的社交网络服务里的虚拟社区网站。于2007年9月10日推出第一个测试版。公司总部位于日本东京都涩谷区千驮谷。pixiv创办初衷是为全球艺术家提供一个能发表他们的作品，并透过评级系统反应其他用户意见的地方。网站以用户投稿的原创图画为中心，辅以标签、书签、作品回应、排行榜等功能形成具有其特色的社交网络。
-----摘自百度百科

爬虫过程

##PS：由于pixiv的特殊性，访问该网站需要某种工具(笑)##

按照以往爬虫经验，以为爬pixiv依旧是一件很容易的事情，于是按照常规导入库：

import requests#爬虫必备库
import re#正则表达式提取链接等
import time#加入延迟

自定义使用浏览器headers：

headers = {
   
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'
}#防止反爬

找到pixiv的日榜网页链接：
找到链接

使用requests.get.text获取该页面的网页源代码：

response_1 = requests.get("https://www.pixiv.net/ranking.php?mode=daily",headers=headers)#请求该网页
daily_list = response_1.text#获取pixiv日榜的网页的源代码

进入到日榜页面，右键查看网页源代码；
找到相似结构，data-id后跟的是榜单图片的id：
找到id
因为有相似性，因此可以使用正则表达式可以提取出图片id：

ID = re.findall('"data-type=".*?"data-id="(.*?)"',daily_list)#获取日榜图片的id
print (ID)#打印id检查是否成功

id获取成功：
在这里插入图片描述
随便点进两张张图片，观察其网址可发现除id外网址相同：
网址结构相同
由此考虑使用for循环得到图片链接：

part = "https://www.pixiv.net/artworks/" #定义除id以外的部分
for site in ID:
    URL

最低0.47元/天解锁文章

終夢

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
7
评论
记一次对Pixiv日榜的爬虫

Pixiv爬虫Pixiv是个啥爬虫过程Pixiv是个啥pixiv是一个以插图、漫画和小说、艺术为中心的社交网络服务里的虚拟社区网站。于2007年9月10日推出第一个测试版。公司总部位于日本东京都涩谷区千驮谷。pixiv创办初衷是为全球艺术家提供一个能发表他们的作品，并透过评级系统反应其他用户意见的地方。网站以用户投稿的原创图画为中心，辅以标签、书签、作品回应、排行榜等功能形成具有其特色的社交网络。-----摘自百度百科爬虫过程ps：由于pixiv的特殊性，访问该网站需要科学上网。按照以往爬虫经
复制链接

扫一扫