python数据分析项目——【国家统计局】学历分布/CPI/金融行业学历分布

数据来源:
从国家统计局上获得的数据,有部分数据进行了调整。其中学历分布、金融行业学历分布基于第6次人口普查结果(2010)年,CPI趋势为截止2021.3.1之前最近18个月。

文中使用到的数据:
链接: https://pan.baidu.com/s/1tAlniahVYyi4Bmp-YQJw_w
提取码: 2x4v

分析目的:
根据统计局公布数据,进行可视化展示查看受教育程度分布情况,CPI变动走势情况,金融行业学历分布等分析。

一、学历分布

#数据来源:http://www.stats.gov.cn/tjsj/pcsj/rkpc/6rp/indexch.htm  中国统计网.第6次人口普查(2010年),第三卷 受教育程度
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
#1、读入数据
data = pd.read_excel('E:/学习使用的数据资料/中国统计网.xlsx',sheet_name='Sheet1')
data.head()

在这里插入图片描述

data.info()
for i in data.index:   #修改行索引的特殊字符
    data.loc[i,'学业完成情况'] = data.loc[i,'学业完成情况'].replace('\xa0','')
data
new_columns = []

for j in data.columns:    #修改列索引的特殊字符
    new_columns.append(j.replace('\xa0',''))
data.columns = new_columns
data.set_index('学业完成情况',inplace=True)
data

在这里插入图片描述

#2、统计整体的学历分布情况(按小学、初中、高中等查看)
#2.1、条形图
plt.figure(figsize=(8,6))
plt.rcParams['font.sans-serif'] = ['SimHei'] 
schooldata = pd.DataFrame(data.loc['总计',:])
schooldata
# schooldata['总计']
school = ['小学','初中','高中','大学专科','大学本科','研究生']
plt.bar(x=school,height=schooldata['总计'],color = 'orange',label='人数,单位:千万',width=0.5)
plt.title('学历分布人数统计概览')
plt.legend()
#结论:总体来看,我国当前阶段受教育人群的学历分布初中为最多,其次为小学(九年义务教育发挥作用~),高中及以上整体较少,研究生相对来说更少

在这里插入图片描述

#2.2、分学业完成情况条形图,不包含总计
new_data = data.iloc[1:,:]
plt.rcParams['font.sans-serif'] = ['SimHei'] 
plt.rcParams['axes.unicode_minus'] = False
school = ['小学','初中','高中','大学专科','大学本科','研究生']
new_data.plot(kind='bar',figsize=(8,6))
plt.title('分学业完成情况人数统计-条形图')

在这里插入图片描述

#2.2饼图
plt.figure(figsize=(10,10))
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.pie(schooldata['总计']
        ,autopct='%.2f%%'
        ,labels=school
        ,pctdistance=0.8,labeldistance=1.1,shadow=True
       ,colors=['r','y','orange','cyan','purple','blue']
        ,explode=[0,0.1,0,0,0,0]
        ,startangle=0
       )
plt.title('分学业完成情况人数统计-饼图')
plt.legend(loc=2)

在这里插入图片描述

二、近18个月CPI变化趋势

#3、统计最近18个季度的CPI变化趋势  数据来源:https://data.stats.gov.cn/easyquery.htm?cn=A01
cpidata = pd.read_excel('E:/学习使用的数据资料/中国统计网.xlsx',sheet_name='Sheet2')
cpidata.set_index('指标',inplace=True)
cpidata_new = cpidata.stack().unstack(level=0)  #将行列转换
cpidata_new

在这里插入图片描述

cpidata_new.sort_index(inplace=True)
cpidata_new
#以时间为横坐标,查看8类居民消费价格指数(上年同月=100)的变化趋势
plt.figure(figsize=(15,10))
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.grid(lw=2,c='gray',alpha=0.2)  #网格线
plt.plot(cpidata_new.loc[:,'居民消费价格指数(上年同月=100)'],label='居民消费价格指数',color='r',ls='--')
plt.plot(cpidata_new.loc[:,'食品烟酒类居民消费价格指数(上年同月=100)'],label='食品烟酒类',color='blue')
plt.plot(cpidata_new.loc[:,'衣着类居民消费价格指数(上年同月=100)'],label='衣着类',color='pink')
plt.plot(cpidata_new.loc[:,'居住类居民消费价格指数(上年同月=100)'],label='居住类',color='purple')
plt.plot(cpidata_new.loc[:,'生活用品及服务类居民消费价格指数(上年同月=100)'],label='生活用品及服务类',color='black')
plt.plot(cpidata_new.loc[:,'交通和通信类居民消费价格指数(上年同月=100)'],label='交通和通信类',color='green')
plt.plot(cpidata_new.loc[:,'教育文化和娱乐类居民消费价格指数(上年同月=100)'],label='教育文化和娱乐类',color='orange')
plt.plot(cpidata_new.loc[:,'医疗保健类居民消费价格指数(上年同月=100)'],label='医疗保健类',color='cyan')
plt.title('各类居民消费价格指数同比变化趋势')
plt.legend()
#结论分析:近18个月以来,CPI同比整体呈下降趋势,其中食品类CPI指数对于总体影响较大,交通通信类CPI指数缓慢上升。

在这里插入图片描述

三、分行业学历分布

#4、分行业受教育程度查看  数据来源:中国统计网
occudata = pd.read_excel('E:/学习使用的数据资料/中国统计网.xlsx',sheet_name='Sheet5')
occudata

在这里插入图片描述

plt.figure(figsize=(15,12))
plt.barh(occudata.loc[:,'行业种类'],width=occudata.loc[:,'合计'],color='orange')
plt.grid(lw=2,c='gray',alpha=0.2)  #网格线
plt.title('各行业人数统计-总计')

在这里插入图片描述

#只看未上过学的人从事的行业分布
plt.figure(figsize=(15,12))
plt.barh(occudata.loc[:,'行业种类'],width=occudata.loc[:,'未上过学'],color='blue')
plt.grid(lw=2,c='gray',alpha=0.2)  #网格线
plt.title('各行业人数统计-未上过学')

在这里插入图片描述

#只看本科的人从事的行业分布
plt.figure(figsize=(15,12))
plt.barh(occudata.loc[:,'行业种类'],width=occudata.loc[:,'本科'],color='green')
plt.grid(lw=2,c='gray',alpha=0.2)  #网格线
plt.title('各行业人数统计-大学本科')

在这里插入图片描述

occudata
finaoccdata = pd.DataFrame(occudata.iloc[9,2:])
finaoccdata

在这里插入图片描述

#查看金融业的学历分布(使用饼图)
plt.figure(figsize=(10,10))
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.pie(finaoccdata.iloc[:,0]
        ,autopct='%.2f%%'
        ,labels=['未上过学','小学','初中','高中','专科','本科','研究生']
        ,pctdistance=0.8,labeldistance=1.1,shadow=True
       ,colors=['r','y','orange','cyan','purple','blue','pink']
        ,explode=[0.3,0,0,0.1,0.1,0,0.2]
        ,startangle=0
       )
plt.title('金融行业学历分布情况-饼图')
plt.legend(loc=2)
#结论:想不到吧,10年前搞金融的是高中、专科的天下~研究生和未上过学的一样稀有~我国高等教育的发展,由此可见变化之巨。

在这里插入图片描述

  • 7
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: 对于python数据分析项目——链家上海二手房数据分析(一),我可以提供一些帮助。首先,你可以使用Python中的Pandas库来收集和处理链家上海二手房的数据。Pandas可以帮助你从网站上获取相关信息,并针对指定的数据集执行许多不同的操作,以便更好地分析和理解这些数据。此外,还可以使用Matplotlib库来可视化数据,以便更清楚地了解链家上海二手房的特征。 ### 回答2: 链家上海二手房数据分析是一个使用Python进行数据探索和分析的项目。通过对链家网站上的二手房数据进行爬虫操作,我们可以获取到大量的关于上海二手房的信息。 在这个项目中,我们首先需要搭建一个爬虫,用于从链家网站上获取到二手房的数据。我们可以利用Python中的网络请求库和解析库,如requests和BeautifulSoup,来发送网络请求并解析返回的网页内容,从而获取到我们需要的数据。 获取到数据后,我们可以进行数据清洗和预处理。这一步骤主要是针对数据中存在的缺失值、异常值等问题进行处理,以确保数据的准确性和一致性。我们可以使用Python中的pandas库来进行数据的清洗和预处理操作。 接下来,我们可以对数据进行探索性分析。通过使用Python中的数据可视化库,如matplotlib和seaborn,我们可以对数据的特征进行可视化展示,以便更好地理解数据的分布和关系。我们可以绘制直方图、散点图、箱线图等来探索二手房价格、面积、位置等特征与其他变量之间的关系。 最后,我们可以进行一些统计分析,如计算二手房价格的平均值、中位数等统计指标,以及进行一些基本的回归分析,如线性回归等。这些分析可以帮助我们揭示出二手房市场的一些趋势和规律,为我们做出更好的决策提供依据。 总之,链家上海二手房数据分析项目是一个利用Python进行数据爬取、清洗、探索和分析的项目,通过对这些步骤的操作,我们可以更好地理解上海二手房市场的情况,并从中获取到有价值的信息。 ### 回答3: 链家是中国最大的房地产经纪公司之一,在其网站上能够找到各个城市的二手房信息。本项目选取了链家上海的二手房数据进行分析。 首先,我们需要从链家网站上爬取二手房的相关数据,包括房屋的价格、面积、区域、朝向、装修情况等等。通过分析这些数据,我们能够得到一些有趣的结论。 比如,我们可以通过计算平均价格和面积,找出上海不同区域二手房的价格及面积分布情况。通过这些分布情况,我们可以了解到哪些区域的二手房更贵,哪些区域的二手房面积更大,帮助购房者做出更明智的决策。 此外,我们还可以通过数据分析,得到不同房屋朝向和装修情况对价格的影响。通过比较不同朝向和装修情况下的价格差异,我们可以了解到市场对于这些因素的偏好,从而也为购房者提供一些参考。 另外,我们还可以通过分析不同时间段内的二手房成交量,找出上海二手房市场的活跃时段。这对于购房者来说也是非常有用的,因为他们可以根据市场活跃程度来选择合适的时间进行购买。 最后,我们还可以通过数据分析,找出上海二手房市场的热门区域和热门楼盘。这些信息对于投资者来说尤为重要,因为他们可以根据市场趋势来选择合适的投资区域和楼盘。 通过对链家上海二手房数据的分析,我们可以得到很多有用的信息,帮助购房者和投资者做出更明智的决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值