爬取并下载国家地理杂志官网8月份照片

最新推荐文章于 2021-12-02 16:44:33 发布

weixin_30553837

最新推荐文章于 2021-12-02 16:44:33 发布

阅读量214

点赞数

文章标签： python 开发工具

原文链接：http://www.cnblogs.com/qukingblog/p/7475291.html

版权

刚看完urlretrieve函数，想要实战一下它的效果，于是找了国家地理杂志中国官网爬一下，网站http://www.nationalgeographic.com.cn/

开发环境是Python2.7&&Pycharm

图片的src是这样的：

国家地理

我们用正则&&BeautifulSoup匹配它的标签img的src属性，得到了下面代码中的正则匹配，我在Pycharm中建立了photo文件夹，来存放下载的图片。

这里写图片描述

代码如下：


 # encoding: utf-8

import urllib
from bs4 import BeautifulSoup
import re


def graph(url):

    page = urllib.urlopen(url).read()
    soup = BeautifulSoup(page, 'html.parser', from_encoding='utf-8')
    result = soup.find_all('img', src=re.compile(r'http://image.nationalgeographic.com.cn/2017/08\d{2}/201708\d{11}.jpg'))
    return result


if __name__ == '__main__':
    url = 'http://www.nationalgeographic.com.cn/'
    result = graph(url)
    count = 0
    for photo in result:
        count = count+1
        urllib.urlretrieve(photo['src'], 'photo/%s.jpg'%count)
    print '下载完成总共%d张照片'%count

最后的效果：

美国8.21的大日食照片

转载于:https://www.cnblogs.com/qukingblog/p/7475291.html

weixin_30553837

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取并下载国家地理杂志官网8月份照片

刚看完urlretrieve函数，想要实战一下它的效果，于是找了国家地理杂志中国官网爬一下，网站http://www.nationalgeographic.com.cn/开发环境是Python2.7&&Pycharm图片的src是这样的：我们用正则&&BeautifulSoup匹配它的标签img的src属性，得到了下面代...
复制链接

扫一扫