python爬虫之爬取“唯美“主流图片

holywangle

于 2023-03-17 21:37:20 发布

阅读量494

点赞数

文章标签： python 爬虫 Powered by 金山文档

本文链接：https://blog.csdn.net/hhR888888/article/details/129628487

版权

个人名片：
🐅作者简介：一名大二在校生，热爱生活，爱好敲码！
\ 💅个人主页 🥇：holy-wangle
➡系列内容： 🖼️ tkinter前端窗口界面创建与优化
✨个性签名： 🍭不积跬步，无以至千里；不积小流，无以成江海

CSDN的大佬们，傍晚好！！这是我学会爬虫的首作品，但是我还是想巩固一下我的学习成果！

想要拥有大量的好看的壁纸和头像？跟我这一篇文章学习，如果一键爬取吧！！！！！

先申明一下，我是小白中的小白！过程中注释语都可能用错，如果有什么用错的，请各位大佬指出，我不怕被笑，就怕笑了，不告诉我哪里错了😋，感谢啦！

先上代码！

# 导入需要用的模块
import requests
from lxml import etree
import os


# 创建一个：壁纸爬取类
class WallpaperCrawling(object):
    # 初始化
    def __init__(self):
        self.url = 'https://xinzhuobu.com/?cat=23'
        self.header = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/90.0.4430.85 Safari/537.36 Edg/90.0.818.49 '
        }

    # 爬取该url的网源代码并且转换为一般的形式然后返回这个值
    @staticmethod
    def crawling_page(url, header):
        response = requests.get(url, headers=header)
        # print(response)
        response = requests.get(url, headers=header)
        page_text = response.text
        # print(page_text)
        return page_text

    # 进行解析代码，提取图片，并且存储
    def solve_page(self, page, header):
        # 这是一种解析方式不懂的可以上网查找
        tree = etree.HTML(page)
        li_list = tree.xpath('//div[@class="row posts-wrapper"]/div')
        # 判断是否有当前目录下有没有这个文件夹：没有的话创建一个
        if not os.path.exists('./picLibs'):
            os.mkdir('./picLibs')
        for li in li_list:
            img_src = li.xpath('./article/div[@class="entry-media"]/div/a/img/@data-src')[0]
            # print(img_src)
            img_name = li.xpath('./article/div[@class="entry-media"]/div/a/img/@alt')[0] + '.jpg'
            # 通用处理中文乱码解决方案
            img_name = img_name.encode('utf-8').decode()
            # 这里是把名字上面含有的不能作为命名名称的符号替换为“ ”（就是空）
            img_name = img_name.replace('?', '').replace('*', '').replace('<', '').replace('> ', '').replace(':', '').replace(';', '').replace(',', '').replace('=', '')
            # print(img_name,img_src)
            # 请求图片，进行持久化存储
            img_data = requests.get(url=img_src, headers=header).content
            img_path = "picLibs/" + img_name
            with open(img_path, 'wb') as fp:
                fp.write(img_data)
                print(img_name, '下载成功！！')
   
    def run_spider(self):
        # 获取page
        home_page = self.crawling_page(self.url, self.header)
        # 解析数据并且存储图片
        self.solve_page(home_page, self.header)


if __name__ == '__main__':
    spider = WallpaperCrawling()
    spider.run_spider()

我们先到爬取的网站走走分析分析！！！gogo！

这里是网源代码

这里需要一点点HTML知识和解析的知识

tree = etree.HTML(page)
        li_list = tree.xpath('//div[@class="row posts-wrapper"]/div')
        # 判断是否有当前目录下有没有这个文件夹：没有的话创建一个
        if not os.path.exists('./picLibs'):
            os.mkdir('./picLibs')
        for li in li_list:
            img_src = li.xpath('./article/div[@class="entry-media"]/div/a/img/@data-src')[0]
            # print(img_src)
            img_name = li.xpath('./article/div[@class="entry-media"]/div/a/img/@alt')[0] + '.jpg'

面这里就是定位到所取图片的链接也需要一点点Xpath的基础知识不懂而且去了解一下！！！

提醒：读者如果下次爬取的时候记得先在pycharm上面爬取对应的网源代码看一下对应节点属性的名称是上面要不然的话，可能会爬取的位置不对！！这是我的亲身经历！！！

下面展示一下爬取的成果！！！