这周忙着各种复习考试和补课真的是有点晓凡,差不多快落了有一个兴趣没学习了,突然想着python可以爬取文字,那肯定也可以提取图片吧。果不其然,前辈们都为我们这些小白做出了贡献,模仿着以前大佬的提示,我也爬到了女神的照片哈哈
# coding=gbk
import urllib.requestimport reimport os
#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html.decode('UTF-8')
def getImg(html):
reg=r'src="(http://imgsrc.*?\.jpg)"'
imgre = re.compile(reg)
imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址,放在imglist中
x = 93 #因为文件夹有92张图,所以从93开始计数。依次增加
path = 'F:\\郑秀晶手机' # 将图片保存到
F:\\郑秀晶手机文件夹中
if not os.path.isdir(path):
os.makedirs(path) paths = path+'\\' #保存在
F:\\郑秀晶手机路径下
for imgurl in imglist: urllib.request.urlretrieve(imgurl,'{}{}.jpg'.format(paths,x))
#打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串
x = x + 1
return imglisthtml = getHtml("http://tieba.baidu.com/p/5775270416")
#获取该网址网页详细信息,得到的html就是网页的源代码
print (getImg(html)) #从网页源代码中分析并下载保存图片
下面是爬的结果
这是爬的网页地址: http://tieba.baidu.com/p/5775270416