python爬取5442网站图片

最新推荐文章于 2023-01-14 23:26:28 发布

江说江湖

最新推荐文章于 2023-01-14 23:26:28 发布

阅读量3.4k

点赞数

分类专栏： python 文章标签： python爬虫爬虫图片爬虫

本文链接：https://blog.csdn.net/A784586/article/details/72914585

版权

python爬取5442网站图片

python3环境下：

#!/usr/bin/python
#encoding: utf-8
"""
本次爬虫使用的是python3的版本，并且本次的目标网站并没有采用js来加载图片，所以没有涉及对js脚本的解析，都是通过来分析html文件通过正则来一步步提取图片网址，然后存起来。
首先这个网站有很多分类，到美女图这个子网页，可以发现有很多页，同时每页有多个相册，每个相册点进去就会有多个页，每页有多张照片
流程大概是这样
找到所有页数
----遍历所有的页数
----遍历当前页的所有相册(给每个相册建立一个目录)
----遍历当前相册的所有图片(遍历此相册的所有页(遍历当前页的所有照片并找到图片的url))
----获得图片url就存起来
"""
import urllib.request
import re
import os
import time
import socket
from hashlib import md5
#001获得整个页面
def get_html(url):
    socket.setdefaulttimeout(10)
    papg = urllib.request.urlopen(url)
    html = papg.read()
    html = html.decode("gbk")
    #html = unicode(html, "gbk").encode("utf8")
    return html

def get_img(html):
    imgre = re.compile(r'&