#!/usr/bin/env python
#encoding=utf-8
#采集美女图片到本地import urllib
import re
#获取要下载的地址的源码
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html#获取url地址列表
def getUrl(html):
reg =r'href="(http:\/\/www\.mm131\.com\/xinggan/.+?\.html)"'
urlre =re.compile(reg)
urllist =re.findall(urlre,html)
return urllist
#采集的地址
html =getHtml("http://www.mm131.com/xinggan/")#分析有用的url
urls = getUrl(html)
#定义一个列表保存要采集的图片地址
imgs =[];
for url in urls:
pic = getHtml(url)
#<img alt="少妇智秀内内微露三角之间诱惑万千(图1)" src="http://img1.mm131.com/pic/2756/1.jpg">
reg =r'src="(http:\/\/img1\.mm131\.com\/pic\/.+?\/.+?\.jpg)"'
urlre =re.compile(reg)
piclist =re.findall(urlre,html)
#分析的图片追加到列表,这里没有做去重处理
imgs.extend(piclist)#下载图片到本地
x = 0
for imgurl in imgs:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1