Exploratory Data Analysis
Dataset: Daily Weather in the U.S., 2017
数据:
该数据集包含由NOAA每日全球历史气候学网络提供的2017年美国每日气象数据。该数据已被转换:一些仅具有稀疏测量值的气象站已被滤除。
数据集中包括:经度latitude、维度longtitude、海拔elevation、 州state、观测站station、 降水量PRCP(英寸)、 降雪量SNOW(英寸)、雪深SNWD(英寸)、 最高温度TMAX(F)、最低温度TMIN(F)、平均温度TAVG(F)、 日平均风速AWND(英里/小时)、最快的5秒风速度Wsf5(英里/小时)、最快5秒风向Wdf5(度)。
Analysis Questions
几种气候图:
影响因素包括美国降水、气温、降雪、积雪量、风速因素的研究,美国的气候情况比较复杂,不能通过单一的维度信息进行评判,通过背景知识以及直接可视化美国各州的气候图我们知道美国有温带海洋气候、地中海气候、热带沙漠气候、亚热带季风气候、温带大陆性气候、高山气候等多气候类型,所以我们从多维度对影响美国天气形成的因素进行了更全面的探究:
1.影响气温的主导因素与降水分布特征,通过可视化对比的长处维度是影响气温主导因素的结论。
2.降雪量与经纬度、海拔高度的关系,对比发现两者没有绝对影响优势的特点。
3.可视化降雪量与积雪量基本情况,出现特殊情况分析,最终得出影响积雪量的主要因素是海拔增高这一因素。
4.对日平均风速和最快5秒风速分析两者的关系,以及分析风速与海拔的关系,发现数据中心迎风坡风速大、背风坡风速小的特点。
1.影响气温的主导因素
针对这个问题主要是从直观上分析经纬度对于天气的影响,并通过观察特殊情况进一步向下分析其他因素对于天气的影响。
首先查看给出的测量点是否均匀分布,衡量数据的可信性,便于之后对数据做聚合按州分析:
数据数据时通过测量点给出的通过图示可以知道一个州有多个测量点通过分布可以看出比较均匀
所以一个州的观测点数据可以代表一个州的天气数据。之后的分析将数据按照州聚合分析,并且主要分析美国本土数据:
气温:
降水:
从总体数据来看,东南部气温高,西北部气温低;西部降水多余东部;东北部降雪相对高,纬度高降雪多;
其中对于同一个维度,从图上看气温相差较大,查看海拔对于温度的影响:
维度对平均气温的影响有多大?
面积代表平均温度的大小,颜色代表纬度红色表示纬度越低。绿色表示纬度越高。
从图中可以看出维度对于温度的影响很大,没有很明显的异常值,所以可以得出结论:维度对于美国的平均气温的影响最大。
不同海拔温度分布?
可以看出海拔对于平均气温影响明显;绿色线是美国横向地势按照5度为单位取样地势分布图,总体上西部高东部低;在西部山区温度随着海拔变化而改变明显,出现峰值或者低估是高海拔对温度造成的影响。
从全局来看海拔对于温度的影响:
横轴表示海拔,纵轴分别对应最高、最低、平均气温,满足海拔越高、气温越低的基本常识。
时间维度每个月美国的气温差异分布有多大?
通过箱型图看出,在1–4月美国各个州的温差相对较大,在5–9月温差相差不大。
2.降雪量与经纬度、海拔高度的关系
时间维度
可以看出降雪主要集中在1–3月,4月降雪量相对较少;
更为形象的降雪在时间上的分配:
约94%降雪分配在1–3月;
空间维度
降雪空间分布:
具体查看维度与降雪量关系:
颜色越蓝表示表示维度越高,面积越大表示降雪量越多;可以看出大部分符合维度越高降雪量越大,其中在低纬度部分地区出现(红色)出现降雪量也相对较多的异常情况(面积较大),考虑经度对于降雪量的影响主要在于沿海内陆还是地势信息,这里有地势信息,因此分析地势与降雪量关系:
对应上图低纬度地区但降雪量相对较多的部分地区地势也相对较高。
再考虑将维度、海拔放在一张图上对降雪量做比较:
可以看出两者没有绝对的相关性:影响天气的因素还有其他,这两个因素没有单纯的关系;同理经度、海拔对降雪量也没有单纯影响:
3.降雪量与积雪量关系
色块大小表示积雪量,颜色表示降雪量,红色表示降雪最大,绿色表示降雪最少,从图中可以看出,积雪量最大的不对应降雪量最大的,降雪量大的积雪量反而很少,说明两者没有正比关系,还收受海拔影响
,考虑海拔高的地方积雪不容易融化造成积雪量大,然后画出海拔、积雪量、降雪量图示:
横轴表示海拔,绿色表示降雪量,红色表示积雪量,删除了NULL值之后可以看出,基本高海拔地区积雪量比较大,虽然降雪少;低海拔地区降雪量大但是融化块,积雪量小。
4.日平均风速与最快5秒风速关系
绘制两者关系图:
不同颜色表示不能的州,横轴表示最快5秒风速,纵轴表示平均风速,可以看出两者成正比,以我们的常识一致,最快5秒风速表示短时间猛烈的风,可能是间断性的,一般猛烈的风大的时候,那一天的风也比较大。
再看海拔与风速是否有某种相关性:
横轴表示海拔,纵轴表示平均风速,2500大概为一个阈值,超过这个阈值之后风速中位数或者最大值变大,与常识海拔高的地方有时候风大一致:同时注意到高海拔地区的风速极差比较大,考虑是山的迎风坡和背风坡的影响,迎风面风速大,背风面风速小。
总结
查阅资料:
美国本土位于北温带,25°N~49°N,大部分地区属温带和亚热带,气候和降水比较适宜。
东南部属亚热带季风性湿润气候。因受墨西哥湾暖流的影响,温暖湿润,1月份平均温度在9℃左右,7月份为24℃-27℃。夏末秋初墨西哥湾沿岸常有飓风侵袭。年降水量平均在1500毫米以上。
中部中央平原的气候基本上也属温带大陆性气候,冬季寒冷,夏季炎热,气温较高,湿度大。
中央平原南部的年降水量受大西洋及墨西哥湾的影响高达1500毫米,此地的平均气温虽然很高,但常受来自北方寒流的侵袭。这一地区每年的无霜期在160到200天左右。
干燥的西部高原的年温差高达25℃,山岳地区山势越高气候越低。 纬度的差异对平均气温的影响也很大,从哥伦比亚高原到科罗拉多高原,冬季平均气温高出10℃,夏季则更明显。年平均降水量在500毫米以下,高原荒漠地带降水量不到250毫米。
太平洋沿岸北部属温带海洋性气候区,冬暖夏凉,雨量充沛,1月份平均气温在4℃以上,8月份平均气温不越过22℃。年平均降水量为1300毫米-1500毫米。
太平洋沿岸的南段属于亚热带地中海式气候,夏季炎热干旱,冬季温和多雨。
佛罗里达半岛南端属热带;阿拉斯加州位于北纬60至70度之间,属北极圈内的寒冷气候区;夏威夷州位于北回归线以南,属热带;
通过上述对于天气数据的分析,对于实际情况有了进一步的了解,更理解天气背后的实际意义;
更加熟练使用Tablure,了解内部如何实现聚合对数据的大规模处理;
对于可视化的有了进一步的了解;
在这个过程中逐步发现问题,并通过直接工具来解决问题。
内的寒冷气候区;夏威夷州位于北回归线以南,属热带;*
通过上述对于天气数据的分析,对于实际情况有了进一步的了解,更理解天气背后的实际意义;
更加熟练使用Tablure,了解内部如何实现聚合对数据的大规模处理;
对于可视化的有了进一步的了解;
在这个过程中逐步发现问题,并通过直接工具来解决问题。