python爬取5442网站图片
python3环境下:
#!/usr/bin/python
#encoding: utf-8
"""
本次爬虫使用的是python3的版本,并且本次的目标网站并没有采用js来加载图片,所以没有涉及对js脚本的解析,都是通过来分析html文件通过正则来一步步提取图片网址,然后存起来。
首先这个网站有很多分类,到美女图这个子网页,可以发现有很多页,同时每页有多个相册,每个相册点进去就会有多个页,每页有多张照片
流程大概是这样
找到所有页数
----遍历所有的页数
----遍历当前页的所有相册(给每个相册建立一个目录)
----遍历当前相册的所有图片(遍历此相册的所有页(遍历当前页的所有照片并找到图片的url))
----获得图片url就存起来
"""
import urllib.request
import re
import os
import time
import socket
from hashlib import md5
#001获得整个页面
def get_html(url):
socket.setdefaulttimeout(10)
papg = urllib.request.urlopen(url)
html = papg.read()
html = html.decode("gbk")
#html = unicode(html, "gbk").encode("utf8")
return html
def get_img(html):
imgre = re.compile(r'&