大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中。
大概的思路是:
1、获取网页源代码
2、获取图片地址与房源名称
3、在当前目录,建立一个文件夹,以房源名称命名
4、保存图片并简单对图片进行重命名
以下是全部代码:
#coding:utf8
#python抓取网页图片并保存到本地电脑
import urllib2,re,os,time,sys,urllib
def save_img(url):
reload(sys)
sys.setdefaultencoding('utf8')
html=urllib2.urlopen(url).read()#获取网页源代码
name=re.findall('【(.*?)户型图_长沙.*?房型图_小区照片_相册',html)[0] #获取小区名称,为了下面建立一个文件夹做准备
img_list_url=re.findall('data-index="d+" src="(.*?)" />',html) #获取所有需要图片URL
cur_path=os.path.abspath(os.curdir) #获取当前目录
glal_path=cur_path+''+name.encode('gbk') #当前目录 name名称连接 生成一个 新的路径 比如 :E:pythontest某某小区
os.mkdir(glal_path) #创建一个文件夹
i=1 #定义一个i=1
for img_url in img_list_url:
urllib.urlretrieve(img_url,glal_path+''+'%s.jpg'%str(i)) #保存图片,img_url是图片地址 后面参数是路径与重新命名的图片名称
i=i+1
if __name__ == '__main__':
url="xxx" #房源详情URL地址
save_img(url)
代码只是演示举例,实现功能,具体不同网站匹配规则可能不同。
url地址就不公开了,我用xxx代替了,就不公开了,大家只是学习方法就可以,给大家一下看一下运行效果如下:
大家可以看到运行之后,生成了一个文件夹保利麓谷林语并且保存了8张图片,再发张截图如下:
好了,今天就分享这里,你学会了吗?
李亚涛简介-一个没有才华的python程序员,关注我学习更多python知识