python用find爬虫提取img下的src属性_Python爬虫抓取图片，网址从文件中读取

最新推荐文章于 2023-04-13 14:48:28 发布

一边学术一边艺术

最新推荐文章于 2023-04-13 14:48:28 发布

阅读量1.7k

点赞数

文章标签： python用find爬虫提取img下的src属性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31650287/article/details/113984892

版权

利用python抓取网络图片的步骤：

1.根据给定的网址获取网页源代码

2.利用正则表达式把源代码中的图片地址过滤出来

3.根据过滤出来的图片地址下载网络图片

import urllib

import re

import os

#urllib,re,os均为Python模块

def gethtml(outline):

page = urllib.urlopen(outline) #抓取网页内容获得图片链接

html = page.read()

return html

def getimg(html): #下载图片保存在同目录下的pictures文件夹下

reg=r'src="(.+?\.jpg)" pic_ext'

imgre=re.compile(reg)

imglist=imgre.findall(html)

if not imglist:

print "not found"

else:

filepath=os.getcwd() +'\pictures'

print filepath

if os.path.exists(filepath) is False:

os.mkdir(filepath)

global x

for imgurl in imglist:

temp = filepath + '\%s.jpg' % x

print imgurl

urllib.urlretrieve(imgurl,temp)

x=x+1

x = 0

fp =file("img_path.txt") #所有网址都放在这个文件里

while True:

outline = fp.readline().strip('\n')

if len(outline)==0:

break

print outline

html=gethtml(outline)

getimg(html)

fp.close()

一边学术一边艺术

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python用find爬虫提取img下的src属性_Python爬虫抓取图片，网址从文件中读取

利用python抓取网络图片的步骤：1.根据给定的网址获取网页源代码2.利用正则表达式把源代码中的图片地址过滤出来3.根据过滤出来的图片地址下载网络图片import urllibimport reimport os#urllib,re,os均为Python模块def gethtml(outline):page = urllib.urlopen(outline) #抓取网页...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。