小爬虫爬取CSDN博客图片

最新推荐文章于 2022-03-02 22:37:58 发布

廖Given

最新推荐文章于 2022-03-02 22:37:58 发布

阅读量193

点赞数

分类专栏：入门笔记 python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/WUDIPIPIXIA/article/details/97686109

版权

入门笔记同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

python

3 篇文章 0 订阅

订阅专栏

首先分析一下爬虫思路，首先爬取网页源代码，再分析图片的代码，进行正则匹配，最后下载图片。
话不多说，上代码。
1.获取博客源代码

def get_html(url):#获取博客源代码函数
    header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
          }#方便爬虫伪装成浏览器
    page = urllib.request.Request(url,headers = header)
    pagecode = urllib.request.urlopen(page).read() #获取网页源代码
    print('网页源代码抓取成功')
    with open ('page.txt','wb')as f:
        f.write(pagecode) #把网页源代码保存在pagecode.txt文件中，有时候在需要在源代码中搜索图片url时非常方便
    return pagecode

2.分析图片链接url，进行匹配
这里提供一个思路，直接打开博客里面的图片，点进去，可以看到图片的url,再打开之前获取的源代码文件，进行查找，注意观察。确定链接的正则表达式。
以爬取这篇博文为例：，首先点进去第一张图片，浏览器地址栏为：，即为此图片链接url，在文档中查找此链接，可得图片在源代码中为：

<img src=“https://img-blog.csdn.net/20180429174822219?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2hpdWRhd24=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70” alt
则图片链接的正则表达式为：reg = r'src="(http.+)"alt’
最后与整个博客源代码匹配，具体代码如下：
def search(reg,pagecode):#匹配函数
pic_list = re.findall(reg,pagecode.decode(‘utf-8’))#正则匹配，匹配的结果返回在pic_list列表中
print(‘匹配成功’)
return pic_list`

3.下载图片
获取完图片的链接后，可以开始下载`。

  def download(pic_list):
    x=1
    for pic in pic_list:
        print('开始下载第 %s'%x+'张图片')
        urllib.request.urlretrieve(pic,'第%s张图片.png'%x)#下载图片
        x=x+1
    print('下载完成')`

4. 整个代码如下

import urllib.request
import requests
import re
def get_html(url):
    header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
          }#方便爬虫伪装成浏览器
    page = urllib.request.Request(url,headers = header)
    pagecode = urllib.request.urlopen(page).read() #获取网页源代码
    print('网页源代码抓取成功')
    with open ('page.txt','wb')as f:
        f.write(pagecode) #把网页源代码保存在pagecode.txt文件中，有时候在需要在源代码中搜索图片url时非常方便
    return pagecode
def search(reg,pagecode):
    pic_list = re.findall(reg,pagecode.decode('utf-8'))#正则匹配，匹配的结果返回在pic_list列表中
    print('匹配成功')
    return pic_list
def download(pic_list):
    x=1
    for pic in pic_list:
        print('开始下载第 %s'%x+'张图片')
        urllib.request.urlretrieve(pic,'第%s张图片.png'%x)#下载图片
        x=x+1
    print('下载完成')
url = "https://blog.csdn.net/hiudawn/article/details/80144221"#
page = get_html(url)#获取博客源代码
reg = r'src="(.+)" alt'#图片正则表达式
pic_list = search(reg,page)#正则匹配图片链接url
download(pic_list)#下载图片`

廖Given

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
小爬虫爬取CSDN博客图片

首先分析一下爬虫思路，首先爬取网页源代码，再分析图片的代码，进行正则匹配，最后下载图片。话不多说，上代码。1.获取博客源代码def get_html(url):#获取博客源代码函数 header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Geck...
复制链接

扫一扫

专栏目录