写个爬虫——爬一下糗事的图片

最新推荐文章于 2024-07-15 13:44:00 发布

qq_42006303

最新推荐文章于 2024-07-15 13:44:00 发布

阅读量160

点赞数

分类专栏： python 文章标签：爬虫爬图 python

本文链接：https://blog.csdn.net/qq_42006303/article/details/98884223

版权

python 专栏收录该内容

56 篇文章 4 订阅

订阅专栏

直接上代码，有注释：

import urllib.request
import urllib.parse
import re
import os


def handle_request(url, page):
    url = url + str(page) + '/'
    #print(url)

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0',
    }
    request = urllib.request.Request(url=url, headers=headers)
    return request

def download_image(content):
    pattern = re.compile(r'<div class="thumb">.*?<img src="(.*?)" .*?>.*?</div>',re.S)
    It = pattern.findall(content)
    print(len(It))

    #遍历列表，依次下载图片
    for image_src in It:
        #先处理image_src
        image_src = 'https:' + image_src
        #发送请求，下载图片
        #创建文件夹
        dirname = 'qiutu'
        if not os.path.exists(dirname):
            os.mkdir(dirname)

        #图片名字叫啥
        filename = image_src.split('/')[-1]
        filepath = dirname + '/' + filename
        print('%s图片正在下载.........'%filename)
        urllib.request.urlretrieve(image_src, filepath)
        print('%s图片结束下载.........' % filename)



def main():
    url = 'https://www.qiushibaike.com/pic/page/'
    start_page = int(input('请输入起始页码：'))
    end_page = int(input('请输入结束页码：'))
    for page in range(start_page, end_page + 1):
        print('第%s也开始下载....'%page)
        #生成请求对象
        request = handle_request(url, page)
        # 发送请求对象，获取请求内容
        content = urllib.request.urlopen(request).read().decode()
        #解析内容，提取所有图片链接下载链接
        download_image(content)
        print('第%s也结束下载....' % page)
        print()
        print()


if __name__ =='__main__':
    main()

下图是结果：