Python爬取国家地理杂志的图片

最新推荐文章于 2021-11-27 20:09:21 发布

SmartDemo

最新推荐文章于 2021-11-27 20:09:21 发布

阅读量709

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/SmartDemo/article/details/105239085

版权

Python 专栏收录该内容

31 篇文章 3 订阅

订阅专栏

一、简介：Python爬取国家地理杂志的图片

二、代码展示

from bs4 import BeautifulSoup
import requests
import os

os.mkdir('./img/')

URL = "http://www.nationalgeographic.com.cn/animals/"

html = requests.get(URL).text

soup = BeautifulSoup(html,'lxml')
img_ul = soup.findAll('ul',{"class":"img_list"})

for ul in img_ul:
    imgs = ul.findAll('img')
    for img in imgs:
        url = img['src']
        r = requests.get(url)
        image_name = url.split('/')[-1]
        with open('./img/%s' % image_name, 'wb') as f:
            #requests下载资源：以chunk大小下载，下载一点保存一点
            #r.iter_content(chunk_size=128)设置chunk大小
            for chunk in r.iter_content(chunk_size=128):
                f.write(chunk)
        print('Saved %s' % image_name)

三、代码重点讲解

requests下载资源精简版：

r = requests.get(url)

#在当前目录img下新建img1.png，存放下载图片
with open('./img/img1.png','wb') as f:
    f.write(r.content)

四、参考链接

莫烦Python:

https://morvanzhou.github.io/tutorials/data-manipulation/scraping/3-02-download/

https://github.com/MorvanZhou/easy-scraping-tutorial/blob/master/source_code/3-3-practice-download-images.py

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SmartDemo

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python自动抓取论文_用python抓取某期刊最近5年发表的所有文章的关键词和摘要...

weixin_39710295的博客

11-29

881

[Python爬虫]5.国家地理v3.0

博客

06-24

909

# v3.0进行了代码优化 # 前面两个版本download的是首页的小图片 # 本版本为高清大图import requests from bs4 import BeautifulSoup import redef getHTMLText(url): #获取页面 try: r = requests.get(url) r.raise_for_status(

参与评论您还未登录，请先登录后发表或查看评论

使用python爬取MedSci上的期刊信息

11-18

261

使用python爬取medsci上的期刊信息，通过设定条件，然后获取相应的期刊的的影响因子排名，期刊名称，英文全称和影响因子。主要过程如下：首先，通过分析网站http://www.medsci.cn/sci的交互过程。可以使用谷歌或火狐浏览器的“审查元素-->Network”，然后就可以看到操作页面就可以看到网站的交互信息。当在网页上点击“我要查询”时，网页会发送一个POST消...

python爬取CNKI的期刊

weixin_30721077的博客

04-11

520

链接：https://github.com/renfanzi/Crawling_CNKI 转载于:https://www.cnblogs.com/renfanzi/p/10690091.html

爬取并下载国家地理杂志官网8月份照片

weixin_30553837的博客

08-23

225

刚看完urlretrieve函数，想要实战一下它的效果，于是找了国家地理杂志中国官网爬一下，网站http://www.nationalgeographic.com.cn/ 开发环境是Python2.7&&Pycharm 图片的src是这样的：我们用正则&&BeautifulSoup匹配它的标签img的src属性，得到了下面代...

Python资源大全屌炸Python库

zihong522的博客

07-10

906

交互式解析器交互式 Python 解析器。 IPython – 功能丰富的工具，非常有效的使用交互式 Python。 bpython– 界面丰富的 Python 解析器。 ptpython – 高级交互式Python解析器，构建于python-prompt-toolkit 之上。文件文件管理和 MIME（多用途的网际邮件扩充协议）类型检测。 imghdr – （Python 标准库）检测图片类型。 mimetypes – （Python 标准库）将文件名映射为 MIME 类.

船新的100个Python项目，看了再学毕竟快乐总是一闪而过

Python4857的博客

11-27

1790

Github上面有很多有趣的python项目，包括软件、库、教程、资源等。这次收集了其中比较受欢迎的100个，供大家参考。（内容比较多，建议收藏了再看！）资料来源：https://github.com/521xueweihan/HelloGitHub❞ 1、awesome-python-webapp：廖老师的 Python 入门教程中的实践项目的代码 2、Minos：一个基于 Tornado/MongoDB/Redis 的社区系统 3、tushare：TuShare 是一个免费、开源的 Pytho

Python库大全以及相关连接

Prince的博客

04-29

1268

环境管理管理 Python 版本和环境的工具 p – 非常简单的交互式 python 版本管理工具。 pyenv – 简单的 Python 版本管理工具。 Vex – 可以在虚拟环境中执行命令。 virtualenv – 创建独立 Python 环境的工具。 virtualenvwrapper- virtualenv 的一组扩展。包管理管理包和依赖的工具。 pip – ...

Python 常用第三方库及介绍

runnoob_1115的博客

11-07

6545

环境管理管理 Python 版本和环境的工具p：非常简单的交互式 python 版本管理工具。官网 pyenv：简单的 Python 版本管理工具。官网 Vex：可以在虚拟环境中执行命令。官网 virtualenv：创建独立 Python 环境的工具。官网 virtualenvwrapper：virtualenv 的一组扩展。官网包管理管理包和依赖的工具。pip：Python

Python常用库大全

风清竹叶青

12-05

1379

Python常用库大全环境管理管理 Python 版本和环境的工具 p – 非常简单的交互式 python 版本管理工具。 pyenv – 简单的 Python 版本管理工具。 Vex – 可以在虚拟环境中执行命令。 virtualenv – 创建独立 Python 环境的工具。 virtualenvwrapper- virtualenv 的一组扩展。包管理管理包和依赖的工具。 pip –...

网络爬虫爬取意林,读者杂志

03-04

利用bs4和reportlab,完善了之前的读者爬虫增加爬取意林杂志的功能,供学习者参考

python爬取国家省市区资料

03-13

使用python爬取国家省市区资料脚本

使用python抓取落网期刊图片

红尘孤骑的博客

04-09

722

使用python抓取落网期刊图片虽然使用python开发也将近两年了，但工作中使用python更多处理业务逻辑，数据加工等，难免有些枯燥、乏味。一直听闻python在web数据爬取、数据分析上有无可比拟的优势，于是抱着扩展下知识面，找点乐子的心理，去看了scrapy、beautifulsoup等库的说明文档。刚好有一个我一直很喜欢的电台网站，专门介绍世界各地的独立音乐，里面不定期地更新歌单，类型包括

【Python3爬虫-爬图片】爬中国国家地理全站1.7万张图片

fyonecon

11-14

1547

声明：爬虫为学习使用，请各位同学务必不要对当放网站或i服务器造成伤害。务必不要写死循环。 - 思路：古镇——古镇列表（循环获取古镇详情href）——xx古镇详情（获取所有img的src） - 需要安装requests： pip install requests # 低版本Python需要去除SSL验证： import ssl # 获取网页 ssl._create_default_ht...

使用Python+xpath爬取知网所有中英文期刊的封面背景图片

duanjiamingsss的博客

11-23

767

使用Python+xpath+beautifulsoup爬取知网所有中英文期刊的封面背景图片` import json import requests from bs4 import BeautifulSoup from lxml import etree from pymongo import MongoClient from gridfs import * # ajax请求参数太多太复杂，这里省掉了 for index in range(1, 107): # ajax请求参数 pay

[Python爬虫]3.国家地理—每日一图

博客

06-24

1219

# v1.0版本import requests from bs4 import BeautifulSoup import reurl = 'http://www.nationalgeographic.com.cn/photography/photo_of_the_day/' r = requests.get(url) r.encoding = r.apparent_encoding bsObj =

python3 爬虫全站_【Python3爬虫-爬图片】爬中国国家地理全站1.7万张图片

weixin_33321992的博客

02-09

363

声明：爬虫为学习使用，请各位同学务必不要对当放网站或i服务器造成伤害。务必不要写死循环。(注意保存地址写对，比如：root_file = "f:222" + "/" # 分类的文件夹)-思路：古镇——古镇列表(循环获取古镇详情href)——xx古镇详情(获取所有img的src)-需要安装requests：pip install requests# 低版本Python需要去除SSL验证：impor...

python 网络爬虫爬取落网期刊内容下载图片音乐

MrCheny的博客

01-05

813

1.实现方案 1.1 采用多进程创建多个爬虫对象爬虫对象主要由获取网页内容，分析网页内容，下载图片，下载音乐这四个线程组成 1.2 进程及线程数根据网络情况设置 1.3 图片保存在img下音乐放在music下以期刊命名内容存放在result.txt中 2.代码 #!/usr/bin/python3 # -*- coding: UTF-8 -*- import r

python图片标记_用python找出那些被“标记”的照片

weixin_39687422的博客

01-29

213

环境准备下面的两个第三方模块都可以直接通过pip快速安装，这里使用py36作为运行环境。思路遍历目录拉取数据集合遍历集合取得exifexif信息整理，并获取实体地址拷贝文件到结果样本目录生成json报告文件基础知识下面是现今相片中会存在与GPS相关的关键字，大牛亦可一比带过~ [参考]{"GPSVersionID": "GPS版本","GPSLatitudeRef": "南北纬","GPSLat...

Python爬取国家统计局