python数据分析-广东省经济影响分析

statistican_ABin

已于 2024-06-10 22:12:37 修改

阅读量504

点赞数 8

分类专栏： python数据分析案例文章标签： python 数据分析开发语言

于 2024-04-06 11:06:55 首次发布

本文链接：https://blog.csdn.net/m0_62638421/article/details/137423344

版权

python数据分析案例专栏收录该内容

54 篇文章 3 订阅

订阅专栏

1.读取数据

import pandas as pd
# The user has now uploaded a CSV file. Let's attempt to read it.
csv_file_path = '广东省地方财政表1(1).csv'

# Attempting to read the CSV file using GBK encoding
try:
    # Reading the CSV file with GBK encoding
    csv_data = pd.read_csv(csv_file_path, encoding='GBK')

    # Indicating successful read and showing an overview of the data
    read_success = True
    data_overview = csv_data.head()
except Exception as e:
    # In case of an error, provide feedback
    read_success = False
    data_overview = str(e)

read_success, data_overview

2.描述性统计分析

# 描述性统计
descriptive_stats = csv_data.describe()
descriptive_stats

数据涵盖了从2013年到2023年的11个年份。财政收入在这段时间内呈上升趋势，从7081.26单位（可能是货币单位）增长到14103.43单位。与财政收入相比，财政支出一直高于收入，表明该地区的财政处于赤字状态。这可能是为了推动经济增长、基础设施建设或社会福利支出等原因。债务余额从1088单位增长到30317.97单位，这表明该地区的债务水平在逐年增加。负债率在0.0786到0.2431之间波动，这表示负债相对于财政收入的比重在变化，但整体上负债率较高。科技经费支出有所增长，但波动较小，这可能是为了推动科技创新和发展......

3.相关性热力图分析

import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi']  #中文
plt.rcParams['axes.unicode_minus'] = False   #负号
# Setting up the plot
plt.figure(figsize=(10, 8))

# Creating a heatmap for the correlation matrix
sns.heatmap(csv_data.corr(), annot=True, fmt=".2f", cmap='coolwarm')

# Showing the heatmap
plt.title("Correlation Matrix")
plt.show()

从相关性热力图可以看出，年份与其他变量的相关性：年份与其他变量的相关性较低，绝大多数相关系数接近于0，说明年份与其他变量之间没有明显的线性关系。财政收入、财政支出、债务余额、负债率、科技经费支出、建成区绿化覆盖率、出口比重、进口比重、城乡居民收入差距之间的相关性：这些变量之间呈现出较高的正相关性。例如，财政收入与财政支出、债务余额等都呈现出较高的相关性，这表明它们之间存在一定的关联。债务余额与负债率、科技经费支出、建成区绿化覆盖率、出口比重等之间也呈现出较高的相关性，这可能反映了在财政支出较高时，债务水平也随之增加的趋势。

总的来说，相关系数矩阵提供了各变量之间的线性相关性的信息，但需要注意的是，相关系数只反映了线性关系，可能存在非线性关系未被反映出来的情况。

4.随机森林模型及其特征重要性

from sklearn.ensemble import RandomForestRegressor
import numpy as np

# Preparing the data for RandomForestRegressor
X_rf = csv_data.drop(columns=['年份', '财政支出'])  # Independent variables: all except 年份 and 财政支出
y_rf = csv_data['财政支出']  # Dependent variable: 财政支出

# Initializing the RandomForestRegressor
rf_model = RandomForestRegressor(n_estimators=100, random_state=0)

# Fitting the model
rf_model.fit(X_rf, y_rf)

# Extracting feature importances
feature_importances = rf_model.feature_importances_

# Creating labels for the plot
feature_labels = X_rf.columns

# Plotting feature importances
plt.figure(figsize=(12, 8))
plt.bar(feature_labels, feature_importances, color='skyblue')
plt.xlabel('Features')
plt.ylabel('Importance')
plt.title('Feature Importance in RandomForest Model')
plt.xticks(rotation=45)
plt.show()

根据上面的图表，我们可以观察到不同特征对于模型的重要性。城乡居民收入的影响程度是最显著的，这意味着城乡居民收入对于模型的预测起着至关重要的作用。其次是债务余额，这表明债务水平对于预测结果也有着相当大的影响。紧随其后的是财政收入和科研经费支出，这些因素也在一定程度上影响着模型的预测能力。而影响最小的是资本产出率，这表明资本产出率对于模型的预测影响相对较小。

这些发现为我们提供了对模型中各个特征的重要性的认识，可以帮助我们更好地理解模型的预测过程。特别是城乡居民收入和债务余额这样的关键因素，对于我们制定政策、规划经济发展方向等具有重要的指导意义。

数据和完整代码

创作不易，希望大家多多点赞收藏和评论！