用正则表达式抓取网页图片

步骤:

1.先把某个网页源码手动保存到本地一个文本文件;(暂时,以后想想怎么更加智能化)

2.利用正则表达式匹配html中的img 标签,并从分组中提取出链接并存为list;

3.下载图片到制定文件夹。

import re
import io
import urllib.request
str=[]
try:
    f = open(r'F:\\Python\\test.txt', 'r')
    str=f.read()
except IOError as e:
    print(e)
finally:
    f.close()
#print(str)
pa = re.compile(r'<img.*?src="(.*?\.(?:jpg|jpeg|gif|bmp|png))"')
photo_link=[]
obj=re.findall(pa,str)
img=[]
for x in range(0,len(obj)):
    print("第 %d 条图片连接:%s" %(x,obj[x]))
    response = urllib.request.urlopen(obj[x])
    img.append(response.read())
    with open(r'F:\\img\\%d.jpg' %(x+1), 'wb') as f:
        f.write(img[x])

 

尚待解决的问题:

1.html文件编码问题,以上程序得以运行,是因为直接手工复制网页源代码,并保存为文本文件,若直接从一个html文件中读取,尚未成功。

2.获得图片链接以后,如何进一步依据图片大小,原有html标签信息进行细化,存放入不同的文件目录,甚至数据库,还有待研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值