Python数据分析-欧洲经济聚类和主成分分析

一、研究背景

欧洲经济长期以来是全球经济体系中的重要组成部分。无论是在全球金融危机后的复苏过程中,还是在新冠疫情期间,欧洲经济的表现都对世界经济产生了深远的影响。欧洲各国经济体之间既存在相似性,也存在显著的差异。这些差异不仅体现在宏观经济指标上,如GDP增长率、通货膨胀率、失业率等,还体现在政府预算、债务与GDP比例、经常账户余额等财务指标上。因此,通过聚类分析和主成分分析(PCA)来研究欧洲各国经济指标的相似性和差异性,对于深入理解欧洲经济体系内部的动态和结构具有重要意义。

近年来,全球化进程加速以及欧盟内部一体化的推进,使得欧洲各国经济之间的联系日益紧密。然而,各国在经济政策、产业结构、资源分配等方面仍然存在显著差异。通过聚类分析,可以将具有相似经济特征的国家归为一类,揭示出这些国家在经济发展中的共同模式。而主成分分析则能够简化数据结构,提取出影响欧洲经济的主要因素,帮助我们更好地理解复杂的经济现象。

二、研究意义

  • 揭示经济模式:通过聚类分析可以识别出欧洲国家在经济发展中的不同模式,帮助政策制定者了解不同经济体的特征,从而制定更有针对性的经济政策。

  • 简化数据分析:主成分分析能够降低数据的维度,将多个经济指标简化为少数几个主要成分,这有助于更直观地理解影响欧洲经济的关键因素,便于进行进一步的经济分析和预测。

  • 支持决策制定:本研究的结果可以为政府和企业提供参考依据,帮助他们在经济规划、投资决策和风险管理方面做出更明智的选择。例如,通过了解哪些国家具有相似的经济特征,可以在区域合作、市场开发等方面做出更有战略性的布局。

  • 学术贡献:本研究将丰富聚类分析和主成分分析在经济研究领域的应用案例,提供一种新的视角来审视欧洲经济,有助于推动相关学术研究的发展。

三、实证分析

代码和数据

读取数据

import numpy as np 
import pandas as pd 

import os
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

import datetime

import warnings
warnings.filterwarnings('ignore')
df=pd.read_csv('Economy_Indicators.csv')
df.head()

 查看数据类型

数据预处理

df=df.replace('           NA',np.nan,regex=True)
df['GDP Quarter-over-Quarterr'] = df['GDP Quarter-over-Quarterr'].astype(float)
df['Interest Rate'] = df['Interest Rate'].astype(float)
df.info()

 

接下来对数据特征可视化

fig = plt.figure(figsize=(15,15))

for i in range(len(col)):
    plt.subplot(4,3,i+1)
    plt.title(col[i])
    sns.boxplot(data=df,y=df[col[i]])

plt.tight_layout()
plt.show()

fig = plt.figure(figsize=(15,15))

for i in range(len(col)):
    plt.subplot(4,3,i+1)
    plt.title(col[i])
    sns.histplot(data=df,x=df[col[i]])

plt.tight_layout()
plt.show()

 

每个特征的最小值和最大值之间的差距都很大。这说明欧洲国家之间的经济差距很大。

相关系数热力图

corr_matrix = numeric_df.corr()

plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cbar=False, cmap='Blues', fmt='.1f')
plt.show()

其中,高度正相关 (>=0.5)

国内生产总值与人口:0.8 经常账户与政府预算:0.6 利率与通货膨胀率:0.5 强负相关(<=-0.5)

国内生产总值年度同比与利率:-0.6 国内生产总值季度同比与利率:-0.6 政府预算与债务/GDP : -0.5

 接下来进行聚类分析

添加人均 GDP 

df['GDP_per_Population']=df['GDP']/df['Population']

标准化

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
df_sc = sc.fit_transform(df1)
df_sc = pd.DataFrame(df_sc, columns=df1.columns)

 首先按 4 个群组进行 KMeans 建模

model = KMeans(n_clusters=4, random_state=1)
model.fit(df_sc)

用肘法确定聚类的数量。 

for i  in range(1,11):
    km = KMeans(n_clusters=i,
                init='k-means++',
                n_init=10,
                max_iter=300,
                random_state=0)
    km.fit(df_sc)
    distortions.append(km.inertia_)

plt.plot(range(1,11),distortions,marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Distortion')
plt.show()

#我们可以将数据分为四个聚类

df['Cluster']=cluster
df.head()

可以看到每个样本后面都有了聚类数

numeric_df = df.select_dtypes(include=[float, int])
# 将非数值列与 Cluster 列连接起来,以便进行分组
numeric_df['Cluster'] = df['Cluster']
# 按 Cluster 分组并计算均值
grouped_mean = numeric_df.groupby('Cluster').mean()

fig = plt.figure(figsize=(15,15))

for i in range(len(col2)):
    plt.subplot(4,3,i+1)
    plt.title(col2[i])
    sns.boxplot(data=df,y=df[col2[i]],x=df['Cluster'])

plt.tight_layout()
plt.show()

各组之间有一些不同的特点。

查看第0组的国家

第 0 组包括国内生产总值和人口规模不大,但人均国内生产总值较高的国家。

组群 2 包括较大的国内生产总值和较多的人口。

第 3 组只有一个国家,即乌克兰。乌克兰的核试验率最高、通货膨胀率最高、失业率最高。它的 GDP 年同比和季度同比都是最低的。这显示了巨大的损失。

接下来进行主成分分析

from sklearn.decomposition import PCA
pca = PCA(n_components=3, random_state=1)
pca.fit(df_sc)
feature = pca.transform(df_sc)
grouped_mean = df.groupby('Cluster')[['PCA1', 'PCA2', 'PCA3']].mean().T
# 应用样式并显示条形图
styled_grouped_mean = grouped_mean.style.bar(axis=1)
styled_grouped_mean

PCA1 在第 1 组中最高,其次是第 2 组。

PCA2 在第 1 组中最高,其次是第 0 组。

PCA3 在第 2 组中最高,其次是第 1 组。

PCA1 在利率方面最高,其次是通货膨胀率。

PCA2 的最高值是人口,其次是人均国内生产总值(GDP_per_Population)。

PCA3 在 GDP 中最高,其次是人口。

 接下来用3D图来可视化一下

fig=plt.figure(figsize=(10, 10))
ax = fig.add_subplot(projection='3d')

scatter=ax.scatter(df['PCA1'], df['PCA2'],df['PCA3'],alpha=0.8, c=cluster)
ax.set_xlabel('principal component 1')
ax.set_ylabel('principal component 2')
ax.set_zlabel('principal component 3')
plt.legend(handles=scatter.legend_elements()[0], labels=['Cluster0','Cluster1','Cluster2','Cluster3'],
           title="Cluster",loc='upper left', bbox_to_anchor=(1, 1))
plt.show()

 接下来再查看一下各个主成分的解释率

pd.DataFrame(pca.explained_variance_ratio_)

PCA1、PCA2 和 PCA3 的解释率约为 66%。 

四、结论

通过聚类分析和主成分分析,我们对欧洲各国的经济特征进行了深入研究。聚类分析结果表明,欧洲国家可以根据其经济指标分为几个具有相似特征的集群,每个集群内部的国家在GDP增长率、通货膨胀率、失业率等方面表现出较高的相似性。这表明尽管欧洲整体经济一体化进程不断推进,但各国之间仍存在显著的经济差异。

主成分分析结果显示,影响欧洲经济的主要因素可以归纳为少数几个主成分,如宏观经济增长、通货膨胀和就业状况、财政健康状况等。这些主成分在很大程度上解释了原始数据的变化,证明了主成分分析在简化数据和提取关键信息方面的有效性。

总体而言,本研究不仅揭示了欧洲各国经济的内在联系和差异,还为进一步的经济分析和政策制定提供了重要的理论和实证依据。未来的研究可以在此基础上,结合更多的动态数据和更复杂的经济模型,进一步探索欧洲经济的发展趋势和内在机制。 ​

 创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

  • 32
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值