首先分析一下爬虫思路,首先爬取网页源代码,再分析图片的代码,进行正则匹配,最后下载图片。
话不多说,上代码。
1.获取博客源代码
def get_html(url):#获取博客源代码函数
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
}#方便爬虫伪装成浏览器
page = urllib.request.Request(url,headers = header)
pagecode = urllib.request.urlopen(page).read() #获取网页源代码
print('网页源代码抓取成功')
with open ('page.txt','wb')as f:
f.write(pagecode) #把网页源代码保存在pagecode.txt文件中,有时候在需要在源代码中搜索图片url时非常方便
return pagecode
2.分析图片链接url,进行匹配
这里提供一个思路,直接打开博客里面的图片,点进去,可以看到图片的url,再打开之前获取的源代码文件,进行查找,注意观察。确定链接的正则表达式。
以爬取这篇博文为例:,首先点进去第一张图片,浏览器地址栏为:,即为此图片链接url,在文档中查找此链接,可得图片在源代码中为:
<img src=“https://img-blog.csdn.net/20180429174822219?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2hpdWRhd24=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70” alt
则图片链接的正则表达式为:reg = r'
src="(http.+)"alt’
最后与整个博客源代码匹配,具体代码如下:
def search(reg,pagecode):#匹配函数
pic_list = re.findall(reg,pagecode.decode(‘utf-8’))#正则匹配,匹配的结果返回在pic_list列表中
print(‘匹配成功’)
return pic_list`
3.下载图片
获取完图片的链接后,可以开始下载`。
def download(pic_list):
x=1
for pic in pic_list:
print('开始下载第 %s'%x+'张图片')
urllib.request.urlretrieve(pic,'第%s张图片.png'%x)#下载图片
x=x+1
print('下载完成')`
4. 整个代码如下
import urllib.request
import requests
import re
def get_html(url):
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
}#方便爬虫伪装成浏览器
page = urllib.request.Request(url,headers = header)
pagecode = urllib.request.urlopen(page).read() #获取网页源代码
print('网页源代码抓取成功')
with open ('page.txt','wb')as f:
f.write(pagecode) #把网页源代码保存在pagecode.txt文件中,有时候在需要在源代码中搜索图片url时非常方便
return pagecode
def search(reg,pagecode):
pic_list = re.findall(reg,pagecode.decode('utf-8'))#正则匹配,匹配的结果返回在pic_list列表中
print('匹配成功')
return pic_list
def download(pic_list):
x=1
for pic in pic_list:
print('开始下载第 %s'%x+'张图片')
urllib.request.urlretrieve(pic,'第%s张图片.png'%x)#下载图片
x=x+1
print('下载完成')
url = "https://blog.csdn.net/hiudawn/article/details/80144221"#
page = get_html(url)#获取博客源代码
reg = r'src="(.+)" alt'#图片正则表达式
pic_list = search(reg,page)#正则匹配图片链接url
download(pic_list)#下载图片`