用正则表达式抓取网页图片

最新推荐文章于 2024-07-16 05:07:52 发布

正在成为技术宅

最新推荐文章于 2024-07-16 05:07:52 发布

阅读量4.5k

点赞数

分类专栏： Python 文章标签：正则表达式网页抓取图片抓取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41795137/article/details/79580447

版权

Python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

步骤：

1.先把某个网页源码手动保存到本地一个文本文件；（暂时，以后想想怎么更加智能化）

2.利用正则表达式匹配html中的img 标签，并从分组中提取出链接并存为list；

3.下载图片到制定文件夹。

import re
import io
import urllib.request
str=[]
try:
f = open(r'F:\\Python\\test.txt', 'r')
str=f.read()
except IOError as e:
print(e)
finally:
f.close()
#print(str)
pa = re.compile(r'<img.*?src="(.*?\.(?:jpg|jpeg|gif|bmp|png))"')
photo_link=[]
obj=re.findall(pa,str)
img=[]
for x in range(0,len(obj)):
print("第 %d 条图片连接:%s" %(x,obj[x]))
response = urllib.request.urlopen(obj[x])
img.append(response.read())
with open(r'F:\\img\\%d.jpg' %(x+1), 'wb') as f:
f.write(img[x])

尚待解决的问题：

1.html文件编码问题，以上程序得以运行，是因为直接手工复制网页源代码，并保存为文本文件，若直接从一个html文件中读取，尚未成功。

2.获得图片链接以后，如何进一步依据图片大小，原有html标签信息进行细化，存放入不同的文件目录，甚至数据库，还有待研究。

正在成为技术宅

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

正在成为技术宅 CSDN认证博客专家 CSDN认证企业博客

码龄7年

16: 原创

120万+: 周排名

75万+: 总排名

1万+: 访问

: 等级

325: 积分

6: 粉丝

3: 获赞

7: 评论

31: 收藏

私信

关注

热门文章

分类专栏

Python 14篇
数据库 4篇
Web 框架 2篇

最新评论

我做过的Python 入门练习题
正在成为技术宅: 日积月累，建立起自己的Python大厦。
无聊写个密码生成器
正在成为技术宅: L=[] for x in d+s+o: L.append(x) 可以简化为：list（d+s+o）
无聊写个密码生成器
正在成为技术宅: final_answer=True for item in isok: final_answer=final_answer and item return final_answer 可以简化为 return all(isok)
今天的学习
正在成为技术宅: Good good study day day up! 每天坚持 coding
初步实现Python 与Mysql数据库的交互
正在成为技术宅: 程序比较粗糙，在Mysql 用 select distinct Randnum form randnum; 结果rowscount 和 select * from randnum 返回的rowscount是一样的，都是200，说明没有重复。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。