Or is there something else I should be using for this problem that would be better?
为了同时考虑中心点之间的地理距离和发电量,您应该定义一个适当的指标。下面的函数通过haversine formula计算地球表面两点之间的距离,并将产生的功率差的绝对值乘以一个加权因子。权重的大小决定了聚类过程中距离和功率差的相对影响。在import numpy as np
def custom_metric(central_1, central_2, weight=1):
lat1, lng1, pow1 = central_1
lat2, lng2, pow2 = central_2
lat1, lat2, lng1, lng2 = np.deg2rad(np.asarray([lat1, lat2, lng1, lng2]))
dlat = lat2 - lat1
dlng = lng2 - lng1
h = (1 - np.cos(dlat))/2. + np.cos(lat1)*np.cos(lat2)*(1 - np.cos(dlng))/2.
km = 2*6371*np.arcsin(np.sqrt(h))
MW = np.abs(pow2 - pow1)
return km + weight*MWShould I be doing this with kmeans (or some other method)?
不幸的是,SciPy的kmeans2和scikitlearn的KMeans的当前实现只支持欧几里得距离。另一种方法是通过SciPy的集群包执行hierarchical clustering,根据刚刚定义的度量对中心进行分组。在
演示</