利用Python爬虫爬取网页图片
通过运用re和requests模块,re是正则表达式,requests是python自带的爬操作url的库,在本题中先导入requests模块利用自定义的函数向指定的url发生访问请求,再定义相应的类文件方法对访问的页面读取内容,并返回字符串;再用另外一个函数对返回的字符串进行匹配相应的字符串,找到图片的HTML进入爬取,利用循环对爬取的图片进行保存。
import requests
import re
#url=input('输入网址:')
url='http://www.yoka.com/beauty/fragrance/2020/0618/54028501109099.shtml'
page=requests.get(url).text
res=re.compile(r'src="(http.+?.jpg)"')
reg=re.findall(res,page)
num=1
for i in reg:
a=requests.get(i)
f=open('D:\\TP\\%s.jpg'%num,'wb')
f.write(a.content)
f.close
print('第%s张图片下载完毕'%num)
num+=1