利用sklearn对山东数据进行经济结构聚类分析（内附源码和数据）

最新推荐文章于 2021-10-13 19:23:51 发布

虾神说D

最新推荐文章于 2021-10-13 19:23:51 发布

阅读量1.2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/allenlu2008/article/details/102693856

版权

640?wx_fmt=jpeg

聚类是一种常见的分析手段，当然，你也可以用它来进行数据探索，

640?wx_fmt=jpeg

这里给大家做一个例子，利用Sklearn包对山东省的经济数据进行聚类分析。

首先是数据：

以前用来做GWR的数据（2015年，来自山东省统计局）

640?wx_fmt=jpeg

数据一共是五个维度，分别是：

财政收入
工业生产总值
消费品零售额
总出口
固定资产投资

信息描述如下：

640?wx_fmt=jpeg

一般来说，这五个维度通常代表了一个地区的经济发展和产业构成情况，所以用他们来做经济分析，还是比较具有代表性的。

以前我们用这份数据做过地理加权回归，有兴趣的同学可以回去看看，相对聚类来说，GWR对经济结构的解析更加深刻，这里就不说，这里仅做技术性的介绍。

聚类方法直接选最简单粗暴的K-Means，原理我就不介绍了，有兴趣的同学自行搜索。

先来看看结果，我们把山东各区县，分成五个类别，那么分类的结果如下：

640?wx_fmt=jpeg

根据聚类的原则，分为同一类别的，具有更大的相似性，所以，这里具有同样颜色的区县，他们的经济结构具有更大的相似性。

这就是为什么要用多个维度的原因了，大家可以想想，如果只用一个维度，那么也就是大小多少的分类专题图，而用多个维度，所表达的，就更多是五个维度组合起来所表示的结构相似度了。

那么我们分别把五个维度的数据，都做一个单独的聚类，看看效果：

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

注意，里面任意两张图之间的颜色，没有任何相关性的意义，仅在本张图以内，表达不同类别所用。

从下面五个维度单独做聚类，与五个维度综合做聚类的对比可以看出来有这样一下特点：

1、山东的经济结构还是具有比较强的相关性的，大片大片的连续相关区域。

2、青岛比较特别，与山东临海与靠近内陆的中间，有胶州、即墨这一个所谓的“大陆隔断墙”，形成原因是什么，大家可以深入研究。

3、总出口的聚类情况，出现了几个比较特别的区域，首先就是烟台市的福山区，之后就是青岛的大陆隔断墙了……，先看看福山区的情况：

640?wx_fmt=jpeg

按照总出口一排序，福山区的总出口在山东排名第一，而且超出第二名接近两倍……那是绝对的一骑绝尘啊。

4、固定资产投资，也出现了一个巨大的异常值：青岛市的黄岛区，固定资产投资超出第二名接近2倍。

640?wx_fmt=jpeg

最后，晒出源码：

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

最后是代码和数据：

Github :

https://github.com/allenlu2008/PythonDemo

640?wx_fmt=jpeg

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

虾神说D 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。