每天搜狗输入法都会弹出那个字媒体小框框 里面有很多很nice的图片还有表情包
可是从网页上直接看的话会被发现然后emmm…
虽然没开始讲爬虫,但试一试…###
前两天的讲的正则表达式快全忘光了,试之前还专门去回顾了下…
import urllib.request
import re
import requests
def download_img(img_url, i): #传入图片地址和图片编号(便于起名)
r = requests.get(img_url)#读取图片
open('C:\\Users\\lcega\\Desktop\\新建文件夹\\{0}.jpeg'.format(i), 'wb').write(r.content) # 挑一个地儿建一个jpeg文件,起名,并且将读到的图片写入文件
print(img_url + "---------------done")#每次成功爬完一张图,输出一条信息,看着sufu
del r
file = urllib.request.urlopen('https://pinyin.sogou.com/zimeiti/article/8177?rf=index')#填入每天字媒体的网址
content = file.read().decode('utf-8')#读取内容,按utf-8解码
rule = r'img\d{2}.sogoucdn.com/app/a/\d*/\d*.jpeg'#写出匹配的正则表达式
result = re.findall(rule, content)#匹配
print('共有{0}张图片'.format(len(result)))#大致了解下今天有多少表情包可以看
for i in range(len(result)):
result[i] = 'http://' + result[i]#挨个变成图片地址,正则匹配完没有前缀。
download_img(result[i], i)调用下载图片函数