python爬取套图的基本教程

最新推荐文章于 2024-07-22 17:25:13 发布

Black_spider1

最新推荐文章于 2024-07-22 17:25:13 发布

阅读量2.3k

点赞数 1

本文链接：https://blog.csdn.net/Black_spider1/article/details/80835144

版权

本文是一篇关于Python爬虫的基础教程，以抓取多玩图库的手机壁纸为例，详细介绍了如何分析网页、构造URL、获取图片信息并下载保存。教程中展示了从查看网页源代码、解析HTML到使用正则表达式提取数据，再到使用JSON解码和保存图片的全过程。

摘要由CSDN通过智能技术生成

这是一个比较简单的爬虫，所以选择的是一个不会有反爬虫的网页，不需要设置伪头之类的

1，首先打开多玩图库，打开手机壁纸

可知道网址为：http://tu.duowan.com/m/bizhi

首先创建下载器，用程序查看下源代码

#!/usr/bin/env python
# -*- coding:utf-8 -*-

#创建下载器，查看网址源代码
import requests

#爬虫类
class Spider:
    def __init__(self):
        self.session = requests.Session()

    #下载器
    def download(self,url):
        response = self.session.get(url)
        #print(response)#返回是否可以运行200
        print(response.text)#返回网页源代码

if __name__ == '__main__':
    spider = Spider()
    spider.download('http://tu.duowan.com/m/bizhi')

执行成功将打印源代码在终端

2，分析网页，获取id，并打印去重

打开网页，点手机壁纸，按F12，然后ctrl+shift+c查看图片找到a标签

然后我们分析URL用正则表达式表示出来

代码如下：

#获取网址id，打印并去重
import requests
import re

#爬虫类
class Spider:
    def __init__(self):
        self.session = requests.Session()

    def run(self,start_url):
        img_ids = self.get_img_item_ids(start_url)