python爬取图片

最新推荐文章于 2024-04-12 15:15:37 发布

doudou_nc

最新推荐文章于 2024-04-12 15:15:37 发布

阅读量139

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/doudou_nc/article/details/99686559

版权

python 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

每天搜狗输入法都会弹出那个字媒体小框框里面有很多很nice的图片还有表情包

可是从网页上直接看的话会被发现然后emmm…

虽然没开始讲爬虫，但试一试…###

前两天的讲的正则表达式快全忘光了，试之前还专门去回顾了下…

	import urllib.request
	import re
	import requests
	
	
	def download_img(img_url, i): #传入图片地址和图片编号(便于起名)
	    r = requests.get(img_url)#读取图片
	    open('C:\\Users\\lcega\\Desktop\\新建文件夹\\{0}.jpeg'.format(i), 'wb').write(r.content)  # 挑一个地儿建一个jpeg文件，起名，并且将读到的图片写入文件
	    print(img_url + "---------------done")#每次成功爬完一张图，输出一条信息，看着sufu
	    del r
	
	file = urllib.request.urlopen('https://pinyin.sogou.com/zimeiti/article/8177?rf=index')#填入每天字媒体的网址

	content = file.read().decode('utf-8')#读取内容，按utf-8解码
	
	rule = r'img\d{2}.sogoucdn.com/app/a/\d*/\d*.jpeg'#写出匹配的正则表达式

	result = re.findall(rule, content)#匹配
	print('共有{0}张图片'.format(len(result)))#大致了解下今天有多少表情包可以看
	for i in range(len(result)):
	    result[i] = 'http://' + result[i]#挨个变成图片地址，正则匹配完没有前缀。
	    download_img(result[i], i)调用下载图片函数