本文首先介绍了天气预测的概念,阐述了天气预测对生产生活的重要影响。接着,从发展历程、特点两个方面对Python进行了分析,并介绍了如何搭建Python开发环境[2]。随后,介绍了网络爬虫的概念,从原理和分类两个方面对网络爬虫进行了研究,在上述基础上,分析了基于Python的网络爬虫技术,使用hadoop+spark做数据分析,然后使用线性归回算法预测气温,可以根据最近7天数据预测之后的3天的主要城市气温数据。
本课题备以下功能内容:
1、Python爬虫模块:使用requests爬取腾讯天气的气象数据作为分析数据集存入mysql[4];
2、Spark实时计算模块:集成SparkSQL完成气象数据统计指标的计算提取;
3、数据预测模块:使用Python线性回归预测模型对气象数据进行分析,并将结果以json的形式推送给前端UI界面;
4、数据可视化模块:使用echarts实现数据可视化大屏[5];