参考网上例子,自己尝试写的,很简单,纯属娱乐
#!/usr/bin/python
import urllib
import re
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html \\返回的是相关网址所有链接
def getList(html):
reg = r'<img class="BDE_Image" src="(.*?\.jpg)"' \\r单引号当中是需要过滤的信息标志
imgReg = re.compile(reg)
imgList = re.findall(imgReg,html)
return imgList \\返回的是所有图片的真实地址链接
if __name__=='__main__':
url = "https://tieba.baidu.com/p/5749961150" \\随意找的贴吧地址
html = getHtml(url )
imgList = getList(html)
x=0
for imgUrl in imgList: \\逐一把过滤后的图片真实链接发送给imgUrl变量
urllib.urlretrieve(imgUrl,'C:\\Python27\\py\\getjpg\\%s.jpg' % x) \\下载到指定位置并重命名
x += 1
----------------------------------------------------------------------------------------------------
模块及函数说明:
re.compile 将正则表达式编译成实例主要配合findall使用
re.findall 格式化为表形式如['a1','2b','c3']
urllib.urlretrieve 下载到指定位置(window必须写全路径,网上的例子没写我测试了没成功,记得写转义符)
urllib.urlopen(url) 打开一个网页获取所有内容