爬取原神同人社的pljj照片

最近在学习python,然后看了我室友最近在看小说,就先看了几篇文章,然后爬了本他正在看的小说练练手。然后就有了这篇爬取原神同人社的pljj的照片,第一次写博客,大家多包涵包涵鸭!

1.首先导入相关的模块

import jsonpath
import requests
import os
import json

2.页面分析

先打开米游社·原神
在这里插入图片描述
找到热门部分,右击检查,network,ctrl+f8之后点击多回蓝色箭头,找到下面接口,接口带有getForumPostList,请求拿到数据。
在这里插入图片描述
在这里插入图片描述

请求网站获取数据

headers ={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
		}
#构造请求头,把爬虫程序伪装成正常的浏览器用户
if not os.path.exists('./原神images'):
    os.mkdir('./原神images/')
#创建保存图片的文件夹

url='https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=29&gids=2&is_good=false&is_hot=true&page_size=20'

获取网页参数
在这里插入图片描述

param = {
            'forum_id': '29',
            'gids': '2',
            'last_id': image_id,
            'page_size': '20'
            }

last_id: 代表这个数据最后一张图片相对于整个页面图片的位置编号
page_size: 代表这个数据总共有多少个图片

3.解析数据

response = requests.get(url=url, headers=headers, params=param)
    response.encoding = response.apparent_encoding
    #使python编码方式自动变化
    print(response.status_code)
    #输出status_code,观察网页变化
    response = response.text
    json_data=json.loads(response, strict=False)
    #把字符串转换成json数据
    image_url= jsonpath.jsonpath(json_data, '$..images')
    #使用jsonpath解析数据,获取所有图片的url,返回的是一个列表
    print(image_url)

因为requests的时候发现它是一个字典,可以使用Python中的键值索引方式获取到想要的数据,但这里使用了jsonpath解析数据,能够更快捷的获取想要的数据

   for i in image_url:
        #遍历拿到每一个URL
        for img in i:
            page_url=img
            image_data = requests.get(page_url).content
            #使用requests请求图片URL,获取图片数据

使用requests请求每张图片URL,获取图片数据

4.数据保存

with open(image_path, 'wb') as f:
    f.write(image_data)
    print(image_name, '下载完毕!!!')

5.成果展示

在这里插入图片描述
爬取成功啦!

6.完整代码

import jsonpath
import requests
import os
import json

path='./原神images'
page = input('请输入您想要爬取的页数:')
page = int(page) + 1
n=0
headers ={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
#构造请求头,把爬虫程序伪装成正常的浏览器用户
if not os.path.exists('./原神images'):
    os.mkdir('./原神images/')
#创建保存图片的文件夹

url='https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=29&gids=2&is_good=false&is_hot=true&page_size=20'
# 资源包的url链接

image_id = 0
for m in range(1, page):
    param = {
            'forum_id': '29',
            'gids': '2',
            'last_id': image_id,
            'page_size': '20'
            }

    response = requests.get(url=url, headers=headers, params=param)
    response.encoding = response.apparent_encoding
    #使python编码方式自动变化
    print(response.status_code)
    #输出status_code,观察网页变化
    response = response.text
    json_data=json.loads(response, strict=False)
    #把字符串转换成json数据
    image_url= jsonpath.jsonpath(json_data, '$..images')
    #使用jsonpath解析数据,获取所有图片的url,返回的是一个列表
    print(image_url)
    for i in image_url:
        #遍历拿到每一个URL
        for img in i:
            page_url=img
            image_data = requests.get(page_url).content
            #使用requests请求图片URL,获取图片数据
            image_name='{}'.format(n+1) + '.jpg'
            image_path = path + '/' + image_name
            with open(image_path, 'wb') as f:
                f.write(image_data)
                print(image_name, '下载完毕!!!')
            n += 1
        image_id += 20

7.经验感想

今天是第一次写一篇博客,之前一直听说爬虫一项很厉害的技术,正好这学期学了python,就想着什么时候能够爬取一些东西。然后就去看了好几篇大佬的博客,这些代码有很多借鉴他们的地方,在这里想记录一点自己再互联网上留下的记忆,可能很多年过后,想起来自己还写过这样一篇博客。学习计算机我觉得真的要有很浓厚的兴趣,就像现在在学Hadoop,flume,hbase,hive等等,能记录下学习的过程,我觉得真的是一件很美好的事情。要是写的还不错记得点赞,关注,收藏,一键三连啦!阿里嘎多,米娜桑哇!

Author:RicardoZ
CSDN:https://blog.csdn.net/Ricardosyg

统一图片采集程序acc商业版 程序功能简介: 系统核心为新云网站内容管理系统 v3.1.0.1231 正式acc版 文章采集的同时可以选择是否下载图片到本地及分页采集。 全站生成HTML页面;增加系统安全性,自由设置生成HTML文件扩展名和存放目录 广告管理功能全部由系统生成JS文件管理, 避免了修改广告代码后需要重新生成HTML文件; 强大的模板后台,可灵活自由的生成模板标签、让您的站点版式自由改变。 完善的上传文件清理功能,为您清除垃圾文件; 需要注意的是: 为了新手易于使用,程序本身已经内置提供了对应网站的采集规则。 附加说明: (1)本程序修改自网上的大色女图库系统,对其发现的BUG进行修正,并增加了快车网图片频道的所有分类采集规则,由于快车网图片没有添加水印,我们推荐用户采集快车网图库,上千万的图片数据。如果站长空间允许,建议您将采集的图片保存在您的本地,不影响您的访问速度,有需要可以对您所采集的图片进行批量增加水印,起到宣 传您站点的作用。最主要的是稳定。 (2) 首页部分文字和广告位需要手动修改跟目录下的index.asp文件,由于系统问题,建议用户不要修改静态文件的保存目录和文件名前缀,涉及修改的文件较多,我已经给大家 设置好了,除了首页不生成静态,其他全部内容页都能生成静态。 (3)快车下载联盟(union.flashget.com) 这点我们考虑到了站长的挣钱途径,现在国内使用迅雷的用户是在减少,而快车用户呈上升势头,所以我们考虑做快车的联盟,快车是全球用户数最多的下载工具,最近发布了迷你版,站长可以去下载安装,特别适合笔记本用。安装量上去了我们的钱挣的也就越多,再加上快车下载联盟稳定,收入 还按时发。没有注册的用户可以到快车下载联盟注册帐号,然后在本系统相关页面修改联盟ID为您的ID就可以了。 需要修改的文件:登录后台后在【常规设置】找【模板管理】,然后点SEX后对文章页面内容模板编辑,将其中的12943替换为你的联盟ID即可,应该有三个位置。快车搜索也能挣钱。 (4)采集说明:采集的时候,需要手动修改您要采集的页数,采集过的数据是不能再次采集的,在远程列表起始页选项修改。 有问题请及时关注我们的网站,我们不断对版本进行更新和完善,最后首席男生感谢您的使用。 (5)顶部广告位和导航修改 在根目录下的 /skin/sex/ top.js up.js 两个文件中修改。 后台登陆地址:/admin/admin_login.asp 默认管理员:admin 密码:123456 程序演示地址:http://www.abumei.com/ (除去生成的静态页面和本地图片源码只有11M) 您使用的时候把静态目录disp目录下的所有文件删除,然后后台文章管理把所有已经入库的文章删除,设定好您的网站信息后重新采集到你站点即可。 -------本程序由【刚果工作室】修改
统一图片采集程序acc商业版(已经整合快车联盟) 程序功能简介: 系统核心为新云网站内容管理系统v3.1.0.1231正式acc版 文章采集的同时可以选择是否下载图片到本地及分页采集。 全站生成HTML页面;增加系统安全性,自由设置生成HTML文件扩展名和存放目录 广告管理功能全部由系统生成JS文件管理, 避免了修改广告代码后需要重新生成HTML文件; 强大的模板后台,可灵活自由的生成模板标签、让您的站点版式自由改变。 完善的上传文件清理功能,为您清除垃圾文件; 需要注意的是: 为了新手易于使用,程序本身已经内置提供了对应网站的采集规则。 附加说明: (1)本程序修改自网上的大色女图库系统,对其发现的BUG进行修正,并增加了快车网图片频道的所有分类采集规则,由于快车网图片没有添加水印,我们推荐用户采集快车网图库,上千万的图片数据。如果站长空间允许,建议您将采集的图片保存在您的本地,不影响您的访问速度,有需要可以对您所采集的图片进行批量增加水印,起到宣传您站点的作用。最主要的是稳定。 (2)首页部分文字和广告位需要手动修改跟目录下的index.asp文件,由于系统问题,建议用户不要修改静态文件的保存目录和文件名前缀,涉及修改的文件较多,我已经给大家设置好了,除了首页不生成静态,其他全部内容页都能生成静态。 (3)快车下载联盟(union.flashget.com) 这点我们考虑到了站长的挣钱途径,现在国内使用迅雷的用户是在减少,而快车用户呈上升势头,所以我们考虑做快车的联盟,快车是全球用户数最多的下载工具,最近发布了迷你版,站长可以去下载安装,特别适合笔记本用。安装量上去了我们的钱挣的也就越多,再加上快车下载联盟稳定,收入还按时发。没有注册的用户可以到快车下载联盟注册帐号,然后在本系统相关页面修改联盟ID为您的ID就可以了。 需要修改的文件:登录后台后在【常规设置】找【模板管理】,然后点SEX后对文章页面内容模板编辑,将其中的12943替换为你的联盟ID即可,应该有三个位置。快车搜索也能挣钱。 (4)采集说明:采集的时候,需要手动修改您要采集的页数,采集过的数据是不能再次采集的,在远程列表起始页选项修改。 有问题请及时关注我们的网站,我们不断对版本进行更新和完善,最后首席男生感谢您的使用。 (5)顶部广告位和导航修改在根目录下的/skin/sex/top.jsup.js两个文件中修改。 后台登陆地址:/admin/admin_login.asp 默认管理员:admin密码:123456 (除去生成的静态页面和本地图片源码只有11M) 您使用的时候把静态目录disp目录下的所有文件删除,然后后台文章管理把所有已经入库的文章删除,设定好您的网站信息后重新采集到你站点即可。 -------本程序由【首席男生】修改
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值