原神2.0宅男福利!爬虫实战,爬取原神真人cos图片并保存,谁的老婆快抱走

目录

前言

项目介绍

多的我就不说了,源代码附有详细说明


前言

激动的心,颤抖的手,老婆你们谁没有?

(图片来源于米游社)

7月21号《原神》2.0发布,大家更新了吗?

更新内容一览:

1、稻妻城:稻妻城和六大岛屿相连,目前新的岛屿只是其中三个;

2、家园系统更新:会新增植物,种植系统;

3、新圣遗物:稻妻会上三种新圣遗物;

4、主要登场人物:八重神子、珊瑚宫星海,早柚、神里绫华、托马、巴尔、宵宫、五郎。

激动的我,在逛米游社的时候,看着这些cos美女已经按捺不住了,连夜的给大家爬了cos同人图,保存了!有福同享,下面我们一起来看看这些美女,不对是代码操作,正好给大家一个练手的小项目!

首先,我们来看看效果图


项目介绍

开发环境: Python3.6

模块(库): requests/ json /os/ threading

爬取目标:爬取的是原神官方网站,米游社。https://bbs.mihoyo.com/ys/home/49 (米游社.原神)

目的:爬取COS专区下的图片,并保存

在COS专区下的图片排序以最新回复栏目排序,因此所爬取的图片会随着最新的时间而更改。程序运行时自动爬取最新20条最新图片。


1、导入库

import requests

import json

import os

import threading

2、初始化URL地址、设置UA代理(注意:这里的url并不是首页,而是一个二级页面)

class WebSpider(object):

def __init__(self):



        self.url = 'https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=49'

        self.headers = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'

                          ' Chrome/92.0.4515.107 Safari/537.36'

        }

 3、分析数据并储存为字典返回  

  def parse(self):

        img_dict_data = {}         

 res = requests.get(self.url, headers=self.headers).content.decode('utf-8')  

        res = json.loads(res)          

res = res['data']['list']  

        subject_name = [i['post']['subject'] for i in res]          

cover_url = [i['post']['cover'] for i in res]         

 # print(cover_url, subject_name)

        # 获取对应的标题以及图片地址

        for name, url in zip(subject_name, cover_url):

            # print(name, url)

            img_dict_data[name] = url  

        return img_dict_data  

   4、 保存图片    

def save_img(self, data):

        for k, v in data.items():

            img_type = v.split('/')[-1].split('.')[-1]            

 save_path = os.path.dirname(os.path.join(__file__)) + '/img'  # 当前目录下的图片保存路径

            if not os.path.exists(save_path):  

                os.mkdir('img')

            with open(f'img/{k}.{img_type}', 'wb') as f:

                img = requests.get(v, headers=self.headers).content                  f.write(img)  

            print(f'{k}.{img_type} ---图保存成功!')

运行示例图:


多的我就不说了,源代码附有详细说明:

"""
爬取地址:https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=49
getForumPostList:api返回当前最新回复的列表json数据 
forum_id=49:COS栏目ID数据为 49
"""
import requests
import json
import os
import threading

class WebSpider(object):
    def __init__(self):
          self.url = 'https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=49'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'
                          ' Chrome/92.0.4515.107 Safari/537.36'
        }

    def parse(self):
        img_dict_data = {}         
res = requests.get(self.url, headers=self.headers).content.decode('utf-8')          
res = json.loads(res)         
res = res['data']['list']        
subject_name = [i['post']['subject'] for i in res]         
 cover_url = [i['post']['cover'] for i in res]  # 遍历图片的URL地址
        # print(cover_url, subject_name)
        # 获取对应的标题以及图片地址
        for name, url in zip(subject_name, cover_url):
            # print(name, url)
            img_dict_data[name] = url  # 字典增加数据

        return img_dict_data  # 返回数据

    # 保存图片
    def save_img(self, data):
        for k, v in data.items():
            img_type = v.split('/')[-1].split('.')[-1]  # 获取图片类型
            save_path = os.path.dirname(os.path.join(__file__)) + '/img'  # 当前目录下的图片保存路径
            if not os.path.exists(save_path):  # img文件夹不存在时则创建新文件夹
                os.mkdir('img')
            with open(f'img/{k}.{img_type}', 'wb') as f:
                img = requests.get(v, headers=self.headers).content  # 发送请求获取图片内容
                f.write(img)  # 写入数据
            print(f'{k}.{img_type} ---图保存成功!')

    def main(self):
        data = self.parse()
        self.save_img(data)

 (图片来源于米游社,左一神里同人图,右一博主仧郎的cos图)


有这技术 还要啥自行车?福利已经发布,大家可以留下你们的赞再走!!源码获取看简介!!关键词回复“原神”

往期回顾:保姆级爬虫教程:python爬取“实习网”信息,找不到实习工作你打我!

  • 38
    点赞
  • 69
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 30
    评论
统一图片采集程序acc商业版 程序功能简介: 系统核心为新云网站内容管理系统 v3.1.0.1231 正式acc版 文章采集的同时可以选择是否下载图片到本地及分页采集。 全站生成HTML页面;增加系统安全性,自由设置生成HTML文件扩展名和存放目录 广告管理功能全部由系统生成JS文件管理, 避免了修改广告代码后需要重新生成HTML文件; 强大的模板后台,可灵活自由的生成模板标签、让您的站点版式自由改变。 完善的上传文件清理功能,为您清除垃圾文件; 需要注意的是: 为了新手易于使用,程序本身已经内置提供了对应网站的采集规则。 附加说明: (1)本程序修改自网上的大色女图库系统,对其发现的BUG进行修正,并增加了快车网图片频道的所有分类采集规则,由于快车网图片没有添加水印,我们推荐用户采集快车网图库,上千万的图片数据。如果站长空间允许,建议您将采集的图片保存在您的本地,不影响您的访问速度,有需要可以对您所采集的图片进行批量增加水印,起到宣 传您站点的作用。最主要的是稳定。 (2) 首页部分文字和广告位需要手动修改跟目录下的index.asp文件,由于系统问题,建议用户不要修改静态文件的保存目录和文件名前缀,涉及修改的文件较多,我已经给大家 设置好了,除了首页不生成静态,其他全部内容页都能生成静态。 (3)快车下载联盟(union.flashget.com) 这点我们考虑到了站长的挣钱途径,现在国内使用迅雷的用户是在减少,而快车用户呈上升势头,所以我们考虑做快车的联盟,快车是全球用户数最多的下载工具,最近发布了迷你版,站长可以去下载安装,特别适合笔记本用。安装量上去了我们的钱挣的也就越多,再加上快车下载联盟稳定,收入 还按时发。没有注册的用户可以到快车下载联盟注册帐号,然后在本系统相关页面修改联盟ID为您的ID就可以了。 需要修改的文件:登录后台后在【常规设置】找【模板管理】,然后点SEX后对文章页面内容模板编辑,将其中的12943替换为你的联盟ID即可,应该有三个位置。快车搜索也能挣钱。 (4)采集说明:采集的时候,需要手动修改您要采集的页数,采集过的数据是不能再次采集的,在远程列表起始页选项修改。 有问题请及时关注我们的网站,我们不断对版本进行更新和完善,最后首席生感谢您的使用。 (5)顶部广告位和导航修改 在根目录下的 /skin/sex/ top.js up.js 两个文件中修改。 后台登陆地址:/admin/admin_login.asp 默认管理员:admin 密码:123456 程序演示地址:http://www.abumei.com/ (除去生成的静态页面和本地图片源码只有11M) 您使用的时候把静态目录disp目录下的所有文件删除,然后后台文章管理把所有已经入库的文章删除,设定好您的网站信息后重新采集到你站点即可。 -------本程序由【刚果工作室】修改

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 30
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农不苟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值