python数据分析-经济影响分析

1.读取数据

import pandas as pd
# The user has now uploaded a CSV file. Let's attempt to read it.
csv_file_path = '广东省地方财政表1(1).csv'

# Attempting to read the CSV file using GBK encoding
try:
    # Reading the CSV file with GBK encoding
    csv_data = pd.read_csv(csv_file_path, encoding='GBK')

    # Indicating successful read and showing an overview of the data
    read_success = True
    data_overview = csv_data.head()
except Exception as e:
    # In case of an error, provide feedback
    read_success = False
    data_overview = str(e)

read_success, data_overview

2.描述性统计分析

# 描述性统计
descriptive_stats = csv_data.describe()
descriptive_stats

数据涵盖了从2013年到2023年的11个年份。财政收入在这段时间内呈上升趋势,从7081.26单位(可能是货币单位)增长到14103.43单位。与财政收入相比,财政支出一直高于收入,表明该地区的财政处于赤字状态。这可能是为了推动经济增长、基础设施建设或社会福利支出等原因。债务余额从1088单位增长到30317.97单位,这表明该地区的债务水平在逐年增加。负债率在0.0786到0.2431之间波动,这表示负债相对于财政收入的比重在变化,但整体上负债率较高。科技经费支出有所增长,但波动较小,这可能是为了推动科技创新和发展......

3.相关性热力图分析

import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi']  #中文
plt.rcParams['axes.unicode_minus'] = False   #负号
# Setting up the plot
plt.figure(figsize=(10, 8))

# Creating a heatmap for the correlation matrix
sns.heatmap(csv_data.corr(), annot=True, fmt=".2f", cmap='coolwarm')

# Showing the heatmap
plt.title("Correlation Matrix")
plt.show()

从相关性热力图可以看出,年份与其他变量的相关性:年份与其他变量的相关性较低,绝大多数相关系数接近于0,说明年份与其他变量之间没有明显的线性关系。财政收入、财政支出、债务余额、负债率、科技经费支出、建成区绿化覆盖率、出口比重、进口比重、城乡居民收入差距之间的相关性:这些变量之间呈现出较高的正相关性。例如,财政收入与财政支出、债务余额等都呈现出较高的相关性,这表明它们之间存在一定的关联。债务余额与负债率、科技经费支出、建成区绿化覆盖率、出口比重等之间也呈现出较高的相关性,这可能反映了在财政支出较高时,债务水平也随之增加的趋势。

总的来说,相关系数矩阵提供了各变量之间的线性相关性的信息,但需要注意的是,相关系数只反映了线性关系,可能存在非线性关系未被反映出来的情况。

4.随机森林模型及其特征重要性

from sklearn.ensemble import RandomForestRegressor
import numpy as np

# Preparing the data for RandomForestRegressor
X_rf = csv_data.drop(columns=['年份', '财政支出'])  # Independent variables: all except 年份 and 财政支出
y_rf = csv_data['财政支出']  # Dependent variable: 财政支出

# Initializing the RandomForestRegressor
rf_model = RandomForestRegressor(n_estimators=100, random_state=0)

# Fitting the model
rf_model.fit(X_rf, y_rf)

# Extracting feature importances
feature_importances = rf_model.feature_importances_

# Creating labels for the plot
feature_labels = X_rf.columns

# Plotting feature importances
plt.figure(figsize=(12, 8))
plt.bar(feature_labels, feature_importances, color='skyblue')
plt.xlabel('Features')
plt.ylabel('Importance')
plt.title('Feature Importance in RandomForest Model')
plt.xticks(rotation=45)
plt.show()

根据上面的图表,我们可以观察到不同特征对于模型的重要性。城乡居民收入的影响程度是最显著的,这意味着城乡居民收入对于模型的预测起着至关重要的作用。其次是债务余额,这表明债务水平对于预测结果也有着相当大的影响。紧随其后的是财政收入和科研经费支出,这些因素也在一定程度上影响着模型的预测能力。而影响最小的是资本产出率,这表明资本产出率对于模型的预测影响相对较小。

这些发现为我们提供了对模型中各个特征的重要性的认识,可以帮助我们更好地理解模型的预测过程。特别是城乡居民收入和债务余额这样的关键因素,对于我们制定政策、规划经济发展方向等具有重要的指导意义。

  • 8
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值