python图片分析中央气象台降水_02_中央气象台

简述

最近发现气象数据很适合进行Python分步完成抓取练习,检索各类资源对比发现中央气象台数据相对完整,类型也较为丰富,故计划针对不同类型分别练习。抓取数据请勿存档,商用请联系官方。

爬取对象

抓取中央气象台卫星云图

使用包

import time, os #定时抓取

import requests

from bs4 import BeautifulSoup

import datetime #精确时间

实现步骤

1、抓取对象分析

通过分析图片列表得知其图片均按时间在播放器下端以小图形式展示,故不用进行翻页操作。

acfeadefa179

图片列表

观察小图布局,得知图片与时间一一对应,ok,文件名也可以获取了,初步分析完成。

acfeadefa179

单个图片

2、抓取与本地保存核心代码

for image_li in list_soup.find_all('li'):

image_name = image_li.find('p', attrs={'class': 'time'}).getText().replace(':','_')

img_small = image_li.find('p', attrs={'class': 'img'}).find('img')["data-original"] #小图

img_localhost = folder + '\\' + image_name + '.jpg'

img_req = requests.get(img_small, timeout=20)

with open(img_localhost, 'wb') as f:

f.write(img_req.content)

3、优化

继续分析页面中内容,发觉播放器中有放大图片功能,恩,要爬就爬高清图。

对比小图URL与播放器中放大图片URL布局,得知存取目录不一致。

http://image.nmc.cn/product/2017/03/10/WXCL/small/SEVP_NSMC_WXCL_ASC_E99_ACHN_LNO_PY_20170310081500000.JPG?v=1489134787788

http://image.nmc.cn/product/2017/03/10/WXCL/SEVP_NSMC_WXCL_ASC_E99_ACHN_LNO_PY_20170310081500000.JPG?v=1489134788000

更新图片路径

img_small = image_li.find('p', attrs={'class': 'img'}).find('img')["data-original"] #小图

img_big = img_small.replace('small/','')

本次爬取对象数据定时更新,故增加定时执行功能

def re_exe(cmd, inc = 60):

while True:

os.system(cmd);

main()

time.sleep(inc)

# N秒 执行一次

re_exe("echo %time%", 1800)

增加程序稳定性,判断目录是否存在、文件是否已下载

if os.path.exists(folder) == False:

os.makedirs(folder)

#如果文件不存在,且大小不为 0 字节,开始下载另存

if os.path.isfile(img_localhost) == False or os.path.getsize(img_localhost) == 0:

将其他感兴趣图集整理处理

#下载清单

DOWNLOAD_URL = [("能见度","seaplatform1","http://www.nmc.cn/publish/sea/seaplatform1.html"),("风","hourly-winds","http://www.nmc.cn/publish/observations/hourly-winds.html"),("气温","hourly-temperature","http://www.nmc.cn/publish/observations/hourly-temperature.html"),("小时降雨量","hourly-precipitation","http://www.nmc.cn/publish/observations/hourly-precipitation.html"),("卫星云图","fy2", "http://www.nmc.cn/publish/satellite/fy2.htm")]

for title, folder, url in DOWNLOAD_URL:

#print(title, folder, url)

html = download_page(url)

总结

本轮示例主要复习了图片抓取,完善文件夹、文件处理,针对动态(更新较为频繁)网站设置自动抓取任务,完成后感觉本地连播此类图片还是挺有意思的......

完整代码

acfeadefa179

Paste_Image.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值