Python爬虫实践：获取空气质量历史数据

最新推荐文章于 2023-10-01 16:10:03 发布

Genlovy_Hoo

最新推荐文章于 2023-10-01 16:10:03 发布

阅读量1.4w

点赞数 5

分类专栏： Python 网络爬虫文章标签： python 网络爬虫

本文链接：https://blog.csdn.net/u013337691/article/details/51894453

版权

Python 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

网络爬虫

2 篇文章 0 订阅

订阅专栏

利用BeautifulSoup库构建一个简单的网络爬虫，从天气后报网站抓取兰州空气质量历史数据（http://www.tianqihoubao.com/aqi/lanzhou.html）。

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import numpy
import csv

def getdatawithtablehead(url):
    """ 该函数用于获取带表头的数据 """
    html=urlopen(url)
    bsobj=BeautifulSoup(html,"lxml") # 获取BeautifulSoup对象

    tablelist=bsobj.findAll("tr") # 获取所有的表格

    Dataset=[]
    tablehead=tablelist[0].get_text().strip("\n").split("\n\n")
    Dataset.append(tablehead) # 获取表头

    for datalist in tablelist[1:]:
        data=datalist.get_text().replace(" ","").replace("\n\r","").\
        strip("\n").split("\n")
        Dataset.append(data) # 获取当月每一天的数据

    return Dataset

def getdata(url):
    """ 该函数用于获取不带表头的数据 """
    html=urlopen(url)
    bsobj=BeautifulSoup(html,"lxml")

    tablelist=bsobj.findAll("tr")

    dataset=[]
    for datalist in tablelist[1:]:
        data=datalist.get_text().replace(" ","").replace("\n\r","").\
        strip("\n").split("\n")
        dataset.append(data)

    return dataset

# 兰州空气质量指数(AQI)-PM2.5查询地址：
starturl="http://www.tianqihoubao.com/aqi/lanzhou.html" 
html=urlopen(starturl)
bsobj=BeautifulSoup(html,"lxml") # 获取BeautifulSoup对象

# 找到所有存放月度数据的网页链接，并以列表的形式按月份先后顺序保存这些链接
Sites=[]
for link in bsobj.findAll(href=re.compile("^(/aqi/lanzhou-)")):
    site="http://www.tianqihoubao.com"+link.attrs['href']
    Sites.append(site)
Sites.reverse()

Dataset=getdatawithtablehead(Sites[0]) # 获取表头和第一个月度数据

for url in Sites[1:]:
    dataset=getdata(url)
    Dataset=numpy.row_stack((Dataset,dataset)) # 获取所有月度数据

csvfile=open("Dataset.csv","w+") # 创建csv文件用于保存数据
try:
    writer=csv.writer(csvfile)
    for i in range(numpy.shape(Dataset)[0]):
        writer.writerow((Dataset[i,:])) # 将数据逐行写入csv文件
finally:
    csvfile.close() # 关闭csv文件