- 还在为斗图找不到合适的表情而烦恼吗?学会python,分分钟下载有趣图片,做斗图界的No.1。
- 首先,打开网站https://www.fabiaoqing.com/biaoqing/lists/page/1.html,里面有你想要的各种图片,翻页试试,第2页https://www.fabiaoqing.com/biaoqing/lists/page/2.html,第5页https://www.fabiaoqing.com/biaoqing/lists/page/5.html,好了,看出规律了吗,既然网址都是类似这样的https://www.fabiaoqing.com/biaoqing/lists/page/1.html,那么我们可以通过改变每一页的序列号批量下载图片。
for i in range(1, 5):
url = 'https://www.fabiaoqing.com/biaoqing/lists/page/{}.html'.format(i)
- 要访问的网址有了,看看网页源代码,我们想要的数据都在源代码里了。
- 我们要提取的数据就是每一个图片的url和title,下面就是把每一个这样的字符串提取出来,用正则表达式匹配。
rr = re.compile('data-original="(.*?)" title="(.*?)"', re.I)
url_title = rr.findall(response.text)
- findall()得到的数据是一个列表,列表的每一项是一个元组,元组的两个元素就是re.compile()匹配的两项。
- 通过url下载图片有一个很好用的方法,urlretrieve()传入两个参数,第一个参数图片url,第二个参数保存的文件名,文件名太长,可以用字符串的切片处理一下。
urlretrieve(url[0], r'C:\Users\Administrator\Desktop\pic' + '\\' + url[1][:4] + url[0][-4:]
-
大功告成,运行看效果。
-
完整代码如下
import requests
import re
from urllib.request import urlretrieve
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 '
'Safari/537.36 '
}
def download(url):
response = requests.get(url, headers=headers)
rr = re.compile('data-original="(.*?)" title="(.*?)"', re.I)
url_title = rr.findall(response.text)
print(url_title)
for url in url_title:
urlretrieve(url[0], r'C:\Users\Administrator\Desktop\pic' + '\\' + url[1][:4] + url[0][-4:])
for i in range(1, 5):
url = 'https://www.fabiaoqing.com/biaoqing/lists/page/{}.html'.format(i)
download(url)