此为已有的一篇博文的更新
环境依旧为:Ubuntu 16.04
更新点:直接从Bing首页爬取图片,不再从已有的第三方链接直接下载。
(写上一篇博文的时候踩了不少坑,图片也不是直接从Bing首页爬取,而是来自第三方已有的链接。 写这篇文章的时候已经有了上一次的基础,以及爬取教务课表的尝试,所以过程很顺利。)
前期准备
- 指定由python3执行
#!/usr/bin/python3
- 指定编码为utf-8
# -*- coding: utf-8 -*-
- 引入必要的库
import requests #发起网页请求
import re #使用正则表达式来匹配到图片网址
import time #获取当前时间,用来文件命名
import os #执行shell命令
- 可以先构建好文件名
time = time.localtime() #获取当前时间
filename = 'bing_%s_%s_%s.jpg' % (time.tm_year, time.tm_mon, time.tm_mday) #用时间构建好文件名
实现:
- 爬取Bing首页
url = 'https://cn.bing.com' #国内Bing网址
headers = {
'user-agent': 'Mozilla/5.0'} #伪装成浏览器,降低访问失败的概率
r = requests.get(url, headers=headers) #get到网页
- 从网页源码中解析出首页背景图片的url