python爬取套图的基本教程

本文是一篇关于Python爬虫的基础教程,以抓取多玩图库的手机壁纸为例,详细介绍了如何分析网页、构造URL、获取图片信息并下载保存。教程中展示了从查看网页源代码、解析HTML到使用正则表达式提取数据,再到使用JSON解码和保存图片的全过程。
摘要由CSDN通过智能技术生成

这是一个比较简单的爬虫,所以选择的是一个不会有反爬虫的网页,不需要设置伪头之类的

1,首先打开多玩图库,打开手机壁纸

     可知道网址为:http://tu.duowan.com/m/bizhi

   首先创建下载器,用程序查看下源代码

#!/usr/bin/env python
# -*- coding:utf-8 -*-

#创建下载器,查看网址源代码
import requests

#爬虫类
class Spider:
    def __init__(self):
        self.session = requests.Session()

    #下载器
    def download(self,url):
        response = self.session.get(url)
        #print(response)#返回是否可以运行200
        print(response.text)#返回网页源代码

if __name__ == '__main__':
    spider = Spider()
    spider.download('http://tu.duowan.com/m/bizhi')

执行成功将打印源代码在终端


2,分析网页,获取id,并打印去重

     打开网页,点手机壁纸,按F12,然后ctrl+shift+c查看图片找到a标签



然后我们分析URL用正则表达式表示出来

代码如下:

#获取网址id,打印并去重
import requests
import re

#爬虫类
class Spider:
    def __init__(self):
        self.session = requests.Session()

    def run(self,start_url):
        img_ids = self.get_img_item_ids(start_url)
       
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值