集群的计算与疾病防御之二

最新推荐文章于 2024-07-06 10:49:41 发布

栉风沐雨1314

最新推荐文章于 2024-07-06 10:49:41 发布

阅读量638

点赞数

分类专栏： python 文章标签： python matplotlib 在图上绘图集群疾病预防

本文链接：https://blog.csdn.net/gt11799/article/details/40213565

版权

python 专栏收录该内容

35 篇文章 0 订阅

订阅专栏

有了上篇得到的两个计算集群的模块，我们可以很轻松计算指定个数的集群了。那么结果如何呈现呢？

老师给了一张美国地图，大小（像素）跟数据中的坐标相符，于是我们就可以把结果呈现到图上。嗯，也就是用matplotlib把点画到已经存在的图上。

首先是载入图片：

map_file = open(MAP_URL)
map_img = plt.imread(map_file)
implot = plt.imshow(map_img)

只要调用一下plt.show()就可以显示图片了。但是提前预览一下就知道图片很小，我们要提高一下分辨率，为了照顾好图片的长宽，我们可以找个把图片等比缩小一下，然后直接设置成figure的DPI。

ypixels, xpixels, bands = map_img.shape
DPI = 60.0                  # adjust this constant to resize your plot
xinch = xpixels / DPI
yinch = ypixels / DPI
plt.figure(figsize=(xinch,yinch))

这样图看着就会舒服点，如果嫌图太小，调低DPI即可。

后面的又是老师给出的小技巧。怎么表示集群归属呢？

首先要理解给定的数据。给定的数据每一行有五个数据，第一个是fips_code，是county（县？）的邮政编码（？）；第二第三就是坐标，第四个就是人口，第五个是患病风险。

本来可以直接把集群直接按照人口的大小标准化之后作为圆的面积，绘到美国地图上，但是那样的话地图上就剩下了一个又一个的大圆，不直观，也毁了原来的数据。

老师建议把给定的数据原原本本的绘出来，然后使用相同的颜色表示同一集群，是不是更好？不能更认同了。

首先就是调整个合适的比例，使用圆的面积表示county的人口：

def circle_area(pop):
    return math.pi * pop / (200.0 ** 2)

当初我们融合集群的时候，把fips_code合并成了一个集合，也就是说，我们要把融合之后的集群中的fips_code取出来，然后绘成同一种颜色。于是建立一个字典，根据fips_code，查找county在原来数据(data_table)中的位置：

fips_to_line = {}
for line_idx in range(len(data_table)):
    fips_to_line[data_table[line_idx][0]] = line_idx

然后我们就可以把数据绘在地图上了：

for cluster_idx in range(len(cluster_list)):
    cluster = cluster_list[cluster_idx]
    cluster_color = COLORS[cluster_idx % len(COLORS)]
    for fips_code in cluster.fips_codes():
        line = data_table[fips_to_line[fips_code]]
        plt.scatter(x = [line[1]], y = [line[2]], s =  circle_area(line[3]), lw = 1,
                            facecolors = cluster_color, edgecolors = cluster_color)

其中，data_table是计算集群前的数据，cluster_list是计算集群后的数据。COLORS是一个颜色的list，基本可以避免不同集群的颜色重叠。

结果也蛮炫的，hierarchical的结果为：（就是分离合并算法）

而k-means算法的结果为：（先随便取点，然后迭代）

注意观察左下角（洛杉矶？）和右下角的部分，二者所出现的不同。