超级简单之Python网页爬取图片
这几天我在做一个项目,过程中需要用到网络爬虫技术去爬取网页上的图片,因为我是连Python都没有学过的人,要我短时间内学会爬取网页上的图片对我来说就有点难了,不过,幸好在B站上查到了一个超级简单的教程,就想着分享给大家,也要感谢那位大佬的指点!
直接上代码
import requests
import re
url = "http://zhongyaocai360.com/"#需要爬取图片的网页地址
page = requests.get(url).text#得到网页源码
#print(page)
res = re.compile(r'src="(http.+?.jpg)"')#运用正则表达式过滤出图片路径地址
reg = re.findall(res, page)#匹配网页进行搜索出图片地址数组
#print(reg)
#循环遍历下载图片
num = 0
for i in reg:
a = requests.get(i)
f = open("img/%s.jpg"%num, 'wb')#以二进制格式写入img文件夹中
f.write(a.content)
f.close()
print("第%s张图片下载完毕"%num)
num = num+1
代码中所用的正则表达式需要导入的模块就是re,我也找到了一些比较好的博客讲解re模块和正则表达式语法的,就分享在这里了,有兴趣的可以去研究。
Python正则表达式详解
Python正则表达式,这一篇就够了!