需求分析
今天遇到一个简单的需求,需要下载澳大利亚电力市场NEM日前市场的发电商报价数据(http://nemweb.com.au/Reports/Current/Next_Day_Offer_Energy/),页面观感是这样的:
Ctrl + F 一下,看到一共有395个zip链接。于是就想着用python爬虫自动下载。这个网页很简单,没有验证码,甚至不需要登录,因此自动下载的python代码也很简单。
步骤
爬取链接主要是如下3步:
1. 第一步是爬取网页内容,保存在一个字符串content中
content的观感是这样的
从中可以看到链接是以'PUBLIC_NEXT_DAY_OFFER_ENERGY_(\d*)_(\d*).zip'的形式出现的,而且出现了两遍。
2. 第二步是构造正则表达式,从content中匹配下载链接
正则表达式构造为'(PUBLIC