小爬虫爬取CSDN博客图片

首先分析一下爬虫思路,首先爬取网页源代码,再分析图片的代码,进行正则匹配,最后下载图片。
话不多说,上代码。
1.获取博客源代码

def get_html(url):#获取博客源代码函数
    header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
          }#方便爬虫伪装成浏览器
    page = urllib.request.Request(url,headers = header)
    pagecode = urllib.request.urlopen(page).read() #获取网页源代码
    print('网页源代码抓取成功')
    with open ('page.txt','wb')as f:
        f.write(pagecode) #把网页源代码保存在pagecode.txt文件中,有时候在需要在源代码中搜索图片url时非常方便
    return pagecode

2.分析图片链接url,进行匹配
这里提供一个思路,直接打开博客里面的图片,点进去,可以看到图片的url,再打开之前获取的源代码文件,进行查找,注意观察。确定链接的正则表达式。
以爬取这篇博文为例:,首先点进去第一张图片,浏览器地址栏为:,即为此图片链接url,在文档中查找此链接,可得图片在源代码中为:

<img src=“https://img-blog.csdn.net/20180429174822219?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2hpdWRhd24=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70” alt
则图片链接的正则表达式为:reg = r'src="(http.+)"alt’
最后与整个博客源代码匹配,具体代码如下:
def search(reg,pagecode):#匹配函数
pic_list = re.findall(reg,pagecode.decode(‘utf-8’))#正则匹配,匹配的结果返回在pic_list列表中
print(‘匹配成功’)
return pic_list`

3.下载图片
获取完图片的链接后,可以开始下载`。

  def download(pic_list):
    x=1
    for pic in pic_list:
        print('开始下载第 %s'%x+'张图片')
        urllib.request.urlretrieve(pic,'第%s张图片.png'%x)#下载图片
        x=x+1
    print('下载完成')`

4. 整个代码如下

import urllib.request
import requests
import re
def get_html(url):
    header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
          }#方便爬虫伪装成浏览器
    page = urllib.request.Request(url,headers = header)
    pagecode = urllib.request.urlopen(page).read() #获取网页源代码
    print('网页源代码抓取成功')
    with open ('page.txt','wb')as f:
        f.write(pagecode) #把网页源代码保存在pagecode.txt文件中,有时候在需要在源代码中搜索图片url时非常方便
    return pagecode
def search(reg,pagecode):
    pic_list = re.findall(reg,pagecode.decode('utf-8'))#正则匹配,匹配的结果返回在pic_list列表中
    print('匹配成功')
    return pic_list
def download(pic_list):
    x=1
    for pic in pic_list:
        print('开始下载第 %s'%x+'张图片')
        urllib.request.urlretrieve(pic,'第%s张图片.png'%x)#下载图片
        x=x+1
    print('下载完成')
url = "https://blog.csdn.net/hiudawn/article/details/80144221"#
page = get_html(url)#获取博客源代码
reg = r'src="(.+)" alt'#图片正则表达式
pic_list = search(reg,page)#正则匹配图片链接url
download(pic_list)#下载图片`
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值