python气象学习:聚类分析用于台风

在读

A Quantitative Method to Evaluate the Performance of Climate Models in Simulating Global Tropical Cyclones

一文的时候,文中提到的Evaluation Index for Geographical Properties of the TC Track内容没有很详细的说明如何去进行聚类分析,只是提及用k-means聚类分析以经把不同的TC track分成几个clusters之后用silhouette coeffificient(剪影系数?)来筛选所要用的k值为多少最合理,至于针对TC用的k-means聚类分析,文章直接把锅甩给 Classifying North Atlantic Tropical Cyclone Tracks by Mass Moments 一文,才知道先得计算每个TC track的质心经纬度,以及路径的经向纬向和对角线方向的方差(这五个要素便能描述一个椭圆路径的特征)公式如下

ri是一个TC在第i个时刻的位置(lon,lat)w(ri)为权重系数,得到的M1是TC路径质心的经纬度

M2得到的是(x方向的方差,y方向的方差,xy的协方差),这个公式一开始我没看懂,看起来就像在算TC各位置到质心的方差,后来在网上看到以下解释才搞清楚

图片来自https://cloud.tencent.com/developer/article/2162877,感谢大佬的文章让我恍然大悟。

在python程序中,直接使用模块

from sklearn.cluster import KMeans

把n个TC路径的[经度,纬度,经度方差,纬度方差,经纬度协方差]放进 nX5的矩阵中(假设这个矩阵的变量名叫track_paras)

k=2 #k是代表一共输出几个聚类
kmeans=KMeans(n_clusters=k, random_state=0)
cluster_list=kmeans.fit_predict(tracks_para)
print(kmeans.labels_)#kmeans.labels_输出的是矩阵中每个TC路径数据所在的聚类编号
print(cluster_list)#输出结果其实和kmeans.labels_一样,只是kmeans.fit_predict(tracks_para)把值赋给了cluster_list
print(tracks_para[np.array(kmeans.labels_)==0])#这样可以输出聚类编号为0的路径的[经度,纬度,经度方差,纬度方差,经纬度协方差]信息

聚类分析中对聚类数k的选定尤为重要,少了多了都可能反映不了分布特点,所以引入一个剪影系数(

silhouette coefficient)

一个聚类的S平均值越大,且S为负数的点数量越少,代表k值选的越好。

在python中使用一下两个模块

from sklearn.metrics import silhouette_score 
from sklearn.metrics import silhouette_samples
    silhouette_vals=silhouette_samples(tracks_para,cluster_list,metric='euclidean')

silhouette_vals得到的便是每个TC路径的S值,对其进行平均和找出S为负数的TC路径数量,由k=2开始画S平均值和负数数量与k的关系图可找到最适合的k值。

以ibtracs记录的2000-2014年西北太平洋TC为例,处理每个TC路径的[经度,纬度,经度方差,纬度方差,经纬度协方差]数据得到S平均值和负数数量与k的关系图

可以看出k=2得到的结果比较理想,则用k=2对西北太平洋TC进行聚类分析,得到

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
层次聚类分析是一种常见的聚类算法,通过计算不同数据样本之间的相似度,将数据样本逐步合并成不同的聚类簇。在商圈分析中,我们可以使用层次聚类分析算法对基站定位数据进行聚类,以识别不同的商圈。 具体步骤如下: 1. 数据准备:收集基站定位数据,并将其转换为可计算距离的经纬度坐标。 2. 计算距离矩阵:使用距离公式计算不同基站之间的距离,得到一个距离矩阵。 3. 层次聚类分析:使用聚类算法对距离矩阵进行聚类分析,得到不同的商圈簇。 4. 结果展示:将聚类结果可视化,以便于分析和理解。 在Python中,可以使用scipy库中的层次聚类分析函数进行商圈分析。示例代码如下: ```python import numpy as np from scipy.cluster.hierarchy import dendrogram, linkage import matplotlib.pyplot as plt # 读取基站定位数据 data = np.loadtxt('stations.csv', delimiter=',') # 计算距离矩阵 dist_mat = np.zeros((len(data), len(data))) for i in range(len(data)): for j in range(len(data)): dist_mat[i][j] = np.sqrt((data[i][0]-data[j][0])**2 + (data[i][1]-data[j][1])**2) # 层次聚类分析 Z = linkage(dist_mat, 'ward') # 可视化结果 fig = plt.figure(figsize=(25, 10)) dn = dendrogram(Z) plt.show() ``` 在上述代码中,我们首先读取了基站定位数据,并计算了距离矩阵。然后,使用scipy库中的linkage函数进行层次聚类分析,并使用dendrogram函数将聚类结果可视化。在可视化结果中,每个聚类簇都用不同的颜色表示,以便于分辨不同的商圈。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值