Pixiv是个啥
pixiv是一个以插图、漫画和小说、艺术为中心的社交网络服务里的虚拟社区网站。于2007年9月10日推出第一个测试版。公司总部位于日本东京都涩谷区千驮谷。pixiv创办初衷是为全球艺术家提供一个能发表他们的作品,并透过评级系统反应其他用户意见的地方。网站以用户投稿的原创图画为中心,辅以标签、书签、作品回应、排行榜等功能形成具有其特色的社交网络。
-----摘自 百度百科
爬虫过程
##PS:由于pixiv的特殊性,访问该网站需要某种工具(笑)##
按照以往爬虫经验,以为爬pixiv依旧是一件很容易的事情,于是按照常规导入库:
import requests#爬虫必备库
import re#正则表达式提取链接等
import time#加入延迟
自定义使用浏览器headers:
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'
}#防止反爬
找到pixiv的日榜网页链接:
使用requests.get.text获取该页面的网页源代码:
response_1 = requests.get("https://www.pixiv.net/ranking.php?mode=daily",headers=headers)#请求该网页
daily_list = response_1.text#获取pixiv日榜的网页的源代码
进入到日榜页面,右键查看网页源代码;
找到相似结构,data-id后跟的是榜单图片的id:
因为有相似性,因此可以使用正则表达式可以提取出图片id:
ID = re.findall('"data-type=".*?"data-id="(.*?)"',daily_list)#获取日榜图片的id
print (ID)#打印id检查是否成功
id获取成功:
随便点进两张张图片,观察其网址可发现除id外网址相同: