北京积分落户数据分析

数据来源:链接:https://pan.baidu.com/s/18Z3WTf1_Y5ze_ALzBAZJfg
提取码:0thc

北京积分落户数据分析

import pandas as pd
import numpy as np
import csv
import matplotlib.pyplot as plt 
#导入数据
luohu_data = pd.read_csv('./bj_luohu.csv',index_col='id')
#describe()展示一些基本信息
luohu_data.describe()
score
count6019.000000
mean95.654552
std4.354445
min90.750000
25%92.330000
50%94.460000
75%97.750000
max122.590000

可以看出共计6019个人通过积分落户,积分最高分122.59分,最低90.75分,平均分95.65分。

print(luohu_data.head())
   name birthday          company   score
id                                       
1   杨效丰  1972-12   北京利德华福电气技术有限公司  122.59
2   纪丰伟  1974-12     北京航天数据股份有限公司  121.25
3    王永  1974-05   品牌联盟(北京)咨询股份公司  118.96
4    杨静  1975-07   中科专利商标代理有限责任公司  118.21
5   张凯江  1974-11  北京阿里巴巴云计算技术有限公司  117.79

从数据中可以看出:可以从生日,公司,分数中挖掘出可用信息

按照维度与指标两方面来进行分析

分析:以公司为维度,以人数为指标进行分析

各公司落户人数及分布

获取每一公司的落户人数并进行排序

#按照company作为维度分组并计算每组个数
#groupby默认会把by的这个列作为索引列返回,可以设置下as_index=False取消
company_data = luohu_data.groupby('company',as_index=False).count()[['company','name']]
company_data
companyname
0ABB(中国)有限公司8
1BONNIER图书文化(北京)有限公司1
2IGT科技开发(北京)有限公司1
3POLYCOM通讯技术(北京)有限公司2
4VIDIA技术服务(北京)有限公司1
5《中国企业报》股份有限公司2
6《中国当代医药》杂志社有限公司1
7《中国汽车报》社有限公司1
8《中国烟草》杂志社有限公司1
9《中国经济周刊》杂志社1
10《中国质量万里行》杂志社1
11《中国邮政报》社1
12《中国饲料》杂志社1
13《信息早报》社1
14《环境与生活》杂志社有限公司1
15《环球时报》社5
16《证券日报》社1
17一汽丰田汽车销售有限公司12
18万国数据服务有限公司北京分公司1
19万图(北京)科技有限公司1
20万浦投资(中国)有限公司1
21万达商业管理集团有限公司2
22万达商业规划研究院有限公司3
23万达文化旅游规划研究院有限公司5
24万达酒店设计研究院有限公司2
25三一重型能源装备有限公司1
26三人行传媒集团股份有限公司北京分公司1
27三星信息技术服务(北京)有限公司2
28三星电子(北京)技术服务有限公司1
29三星经济研究所股份有限公司北京代表处1
.........
3400飞驰镁物(北京)信息服务有限公司1
3401首创置业股份有限公司3
3402首游天地(北京)科技有限公司1
3403首都信息发展股份有限公司7
3404首都信息科技发展有限公司1
3405首都医科大学附属北京康复医院(北京工人疗养院)1
3406首都空港贵宾服务管理有限公司1
3407首钢京唐钢铁联合有限责任公司北京办事处1
3408首钢集团有限公司3
3409香云海会(北京)文化发展有限公司1
3410香港永新专利商标代理有限公司北京办事处1
3411马兰拉面快餐连锁有限责任公司1
3412高伟达软件股份有限公司2
3413高德信息技术有限公司2
3414高德软件有限公司3
3415高盛高华证券有限责任公司1
3416高等教育出版社有限公司7
3417高通无线半导体技术有限公司4
3418高通无线通信技术(中国)有限公司5
3419麒麟远创软件(中国)有限公司1
3420麦肯锡(上海)咨询有限公司北京分公司3
3421默克雪兰诺有限公司4
3422鼎世新(北京)科技有限公司1
3423鼎桥通信技术有限公司5
3424鼎石天元投资(北京)有限公司1
3425龙源(北京)风电工程设计咨询有限公司1
3426龙田云端(北京)科技有限公司1
3427龙芯中科技术有限公司1
3428CSB电池科技(北京)有限公司1
3429JFE贸易(北京)有限公司1

3430 rows × 2 columns

#重命名列名称
company_data.rename(columns={'name':'people_count'},inplace=True)
#按照人数排序(默认升序)
company_sorted_data = company_data.sort_values('people_count', ascending=False)
company_sorted_data

companypeople_count
1081北京华为数字技术有限公司137
312中央电视台73
2457北京首钢建设集团有限公司57
3082百度在线网络技术(北京)有限公司55
3194联想(北京)有限公司48
214中国民生银行股份有限公司40
2648国际商业机器(中国)投资有限公司39
1334北京外企人力资源服务有限公司39
174中国国际技术智力合作有限公司29
2514华为技术有限公司北京研究所27
3049爱立信(中国)通信有限公司26
3201腾讯科技(北京)有限公司24
2405北京阿里巴巴云计算技术有限公司23
240中国石油天然气股份有限公司管道北京输油气分公司20
3070用友软件股份有限公司20
434中铁建工集团有限公司19
356中煤建设集团工程有限公司17
118中信银行股份有限公司17
2815微软(中国)有限公司17
1507北京市京才实业开发总公司16
157中国光大银行股份有限公司16
3072甲骨文(中国)软件系统有限公司16
3270西门子(中国)有限公司16
422中铁三局集团第四工程有限公司15
438中铁电气化局集团有限公司15
2649国际商业机器(中国)有限公司北京分公司14
3379阿里巴巴(北京)软件服务有限公司14
324中建二局安装工程有限公司14
2899施耐德电气(中国)有限公司14
1271北京四方继保自动化股份有限公司14
.........
1348北京大学口腔医院1
1349北京大安振业商业管理有限公司1
1350北京大宝化妆品有限公司1
1351北京大希科技有限公司1
1352北京大恒图像视觉有限公司1
1353北京大成律师事务所1
1325北京城际文化传播有限公司1
1324北京城建深港建筑装饰工程有限公司1
1323北京城建弘通物业管理有限责任公司1
1322北京城建八建设发展有限责任公司1
1299北京国锐信达动力科技有限公司1
1300北京国锐信达税务师事务所有限公司1
1301北京国际度假区有限公司1
1302北京国际电气工程有限责任公司1
1303北京国际(SOS)救援中心1
1304北京图书大厦有限责任公司1
1305北京图优谱信息技术有限公司1
1306北京圈网互动文化传播有限公司1
1307北京土人城市规划设计有限公司1
1308北京圣先福农种子有限公司1
1309北京圣凯盟商贸有限公司1
1310北京圣彩虹制版印刷技术有限公司1
1311北京圣彬科贸有限公司1
1313北京在线九州信息技术服务有限公司1
1314北京地下铁道通成广告有限公司1
1315北京地林伟业科技股份有限公司1
1316北京坚果先生科技有限公司1
1317北京坤和兴业科技有限公司1
1318北京埃文特朗科技有限公司1
3429JFE贸易(北京)有限公司
#按条件过滤
#只有一人的公司
company_sorted_data[company_sorted_data['people_count']==1]
companypeople_count
2390北京长京益康信息科技有限公司1
2392北京长亮新融科技有限公司1
2447北京首科力通机电设备有限责任公司1
1922北京泰瑞特认证有限责任公司1
2448北京首都创业集团有限公司1
2312北京通美晶体技术有限公司1
2313北京通航法荷航飞机航线维修有限责任公司1
2374北京铭源金丰石油化工产品销售有限公司1
1932北京浩海创新科技有限公司1
2377北京银天科创信息技术有限公司1
2311北京通畅电信规划设计院有限公司1
2321北京邮电大学世纪学院1
2322北京采菊科技有限公司1
2446北京首汽智行科技有限公司1
1936北京海利尔智能化科技有限公司1
1931北京浩普诚华科技有限公司1
2376北京银地房地产开发有限责任公司1
2323北京释天环境科技有限公司1
2463北京驷骑中天网络工程技术有限公司1
2325北京金万众空调制冷设备有限责任公司1
2324北京量科邦信息技术有限公司1
2464北京骏蓝拓科技有限公司1
2379北京银河智慧机电设备有限公司1
2378北京银河昊星置业投资有限公司1
2460北京香侬发动机科技有限公司1
2320北京邦融汇金融信息服务有限公司1
2373北京铭润创展科技有限公司1
2399北京阳光汇点数码科技有限公司1
2388北京锦途互动广告有限公司1
2459北京首钢股份有限公司1
.........
1348北京大学口腔医院1
1349北京大安振业商业管理有限公司1
1350北京大宝化妆品有限公司1
1351北京大希科技有限公司1
1352北京大恒图像视觉有限公司1
1353北京大成律师事务所1
1325北京城际文化传播有限公司1
1324北京城建深港建筑装饰工程有限公司1
1323北京城建弘通物业管理有限责任公司1
1322北京城建八建设发展有限责任公司1
1299北京国锐信达动力科技有限公司1
1300北京国锐信达税务师事务所有限公司1
1301北京国际度假区有限公司1
1302北京国际电气工程有限责任公司1
1303北京国际(SOS)救援中心1
1304北京图书大厦有限责任公司1
1305北京图优谱信息技术有限公司1
1306北京圈网互动文化传播有限公司1
1307北京土人城市规划设计有限公司1
1308北京圣先福农种子有限公司1
1309北京圣凯盟商贸有限公司1
1310北京圣彩虹制版印刷技术有限公司1
1311北京圣彬科贸有限公司1
1313北京在线九州信息技术服务有限公司1
1314北京地下铁道通成广告有限公司1
1315北京地林伟业科技股份有限公司1
1316北京坚果先生科技有限公司1
1317北京坤和兴业科技有限公司1
1318北京埃文特朗科技有限公司1
3429JFE贸易(北京)有限公司1

2626 rows × 2 columns

可以得到仅落户1人的公司有2626家

company_sorted_data[company_sorted_data['people_count']<5]

companypeople_count
1400北京太极信息系统技术有限公司4
2661外语教学与研究出版社有限责任公司4
1417北京奥鹏远程教育中心有限公司4
1681北京搜狐新媒体信息技术有限公司4
2382北京银龙知识产权代理有限公司4
1055北京北大维信生物科技有限公司4
1076北京千龙新闻网络传播有限责任公司4
2375北京银信长远科技股份有限公司4
296中国铁路北京局集团有限公司北京电务段4
295中国铁路北京局集团有限公司北京建筑段4
3224苏伊士水务工程有限责任公司4
290中国铁路北京局集团有限公司丰台车辆段4
2404北京阿尔卡特朗讯科技有限公司4
2571卡特彼勒(中国)投资有限公司4
260中国联合网络通信有限公司北京市分公司4
1166北京南北天地科技股份有限公司4
2533华泰保险集团股份有限公司4
2527华夏银行股份有限公司北京分行4
1283北京国华电力有限责任公司4
3281谷歌信息技术(中国)有限公司4
319中工国际工程股份有限公司4
1489北京小米移动软件有限公司4
1434北京字节跳动网络技术有限公司4
1575北京康海天达科技有限公司4
505亿阳信通股份有限公司北京分公司4
3092瞻博网络研发(北京)有限公司4
2130北京经纬恒润科技有限公司4
1663北京拓尔思信息技术股份有限公司4
3094石化盈科信息技术有限责任公司北京分公司4
3028渣打银行(中国)有限公司北京分行4
.........
1348北京大学口腔医院1
1349北京大安振业商业管理有限公司1
1350北京大宝化妆品有限公司1
1351北京大希科技有限公司1
1352北京大恒图像视觉有限公司1
1353北京大成律师事务所1
1325北京城际文化传播有限公司1
1324北京城建深港建筑装饰工程有限公司1
1323北京城建弘通物业管理有限责任公司1
1322北京城建八建设发展有限责任公司1
1299北京国锐信达动力科技有限公司1
1300北京国锐信达税务师事务所有限公司1
1301北京国际度假区有限公司1
1302北京国际电气工程有限责任公司1
1303北京国际(SOS)救援中心1
1304北京图书大厦有限责任公司1
1305北京图优谱信息技术有限公司1
1306北京圈网互动文化传播有限公司1
1307北京土人城市规划设计有限公司1
1308北京圣先福农种子有限公司1
1309北京圣凯盟商贸有限公司1
1310北京圣彩虹制版印刷技术有限公司1
1311北京圣彬科贸有限公司1
1313北京在线九州信息技术服务有限公司1
1314北京地下铁道通成广告有限公司1
1315北京地林伟业科技股份有限公司1
1316北京坚果先生科技有限公司1
1317北京坤和兴业科技有限公司1
1318北京埃文特朗科技有限公司1
3429JFE贸易(北京)有限公司1

3265 rows × 2 columns

落户人数小于5人的公司有3265家

#落户人数前50的公司
company_sorted_data.head(50)
companypeople_count
1081北京华为数字技术有限公司137
312中央电视台73
2457北京首钢建设集团有限公司57
3082百度在线网络技术(北京)有限公司55
3194联想(北京)有限公司48
214中国民生银行股份有限公司40
2648国际商业机器(中国)投资有限公司39
1334北京外企人力资源服务有限公司39
174中国国际技术智力合作有限公司29
2514华为技术有限公司北京研究所27
3049爱立信(中国)通信有限公司26
3201腾讯科技(北京)有限公司24
2405北京阿里巴巴云计算技术有限公司23
240中国石油天然气股份有限公司管道北京输油气分公司20
3070用友软件股份有限公司20
434中铁建工集团有限公司19
356中煤建设集团工程有限公司17
118中信银行股份有限公司17
2815微软(中国)有限公司17
1507北京市京才实业开发总公司16
157中国光大银行股份有限公司16
3072甲骨文(中国)软件系统有限公司16
3270西门子(中国)有限公司16
422中铁三局集团第四工程有限公司15
438中铁电气化局集团有限公司15
2649国际商业机器(中国)有限公司北京分公司14
3379阿里巴巴(北京)软件服务有限公司14
324中建二局安装工程有限公司14
2899施耐德电气(中国)有限公司14
1271北京四方继保自动化股份有限公司14
357中煤建设集团有限公司14
3083百度时代网络技术(北京)有限公司13
2722威睿信息技术(中国)有限公司13
3231英特尔(中国)有限公司北京分公司13
482亚信科技(中国)有限公司13
3093石化盈科信息技术有限责任公司13
3378阿里巴巴科技(北京)有限公司12
17一汽丰田汽车销售有限公司12
2882新华三技术有限公司北京研究所12
194中国建筑第二工程局有限公司12
180中国国际金融股份有限公司12
3278诺基亚通信系统技术(北京)有限公司11
2524华夏幸福基业股份有限公司北京管理咨询分公司11
862北京京东尚科信息技术有限公司11
239中国石油天然气股份有限公司北京销售分公司10
3060瑞斯康达科技发展股份有限公司10
2369北京铁路局10
2018北京用友政务软件有限公司10
553冠捷显示科技(中国)有限公司10
2526华夏银行股份有限公司9
#前50的公司落户人数
num_50 = company_sorted_data.head(50).sum()['people_count']

print('前50的公司落户人数共有{}人,占总人数{}%'.format(num_50,round((num_50/6619)*100,2)))
前50的公司落户人数共有1122人,占总人数16.95%
#积分分数分布
#按照步长为5分桶统计下分数的分布
bins = np.arange(90,130,5)
bins = pd.cut(luohu_data['score'],bins)
bin_counts = luohu_data['score'].groupby(bins).count()
bin_counts
score
(90, 95]      3344
(95, 100]     1757
(100, 105]     653
(105, 110]     218
(110, 115]      32
(115, 120]      13
(120, 125]       2
Name: score, dtype: int64

积分主要分布在(90,95]区间内

#将index处理下
bin_counts.index = [ str(x.left) + '-' + str(x.right) for x in bin_counts.index ]
bin_counts.plot(kind='bar', alpha=1, rot=0)
plt.show()

积分分布

#年龄分布
#出生日期转换为年龄
luohu_data['age'] = ((pd.to_datetime('2019-09')-pd.to_datetime(luohu_data['birthday']))/pd.Timedelta('365 days'))
luohu_data.describe()

scoreage
count6019.0000006019.000000
mean95.65455243.130723
std4.3544452.814236
min90.75000034.020000
25%92.33000041.200000
50%94.46000043.110000
75%97.75000045.120000
max122.59000061.210000

积分落户最小年龄为34岁,最大年龄61岁,平均年龄43岁。

bins = np.arange(20,70,5)
bins = pd.cut(luohu_data['age'],bins)
bin_counts = luohu_data['age'].groupby(bins).count()
bin_counts
age
(20, 25]       0
(25, 30]       0
(30, 35]       4
(35, 40]     770
(40, 45]    3682
(45, 50]    1535
(50, 55]      18
(55, 60]       8
(60, 65]       2
Name: age, dtype: int64

积分落户年龄主要分布在(40,45]年龄段内。

bin_counts.index = [ str(x.left) + '-' + str(x.right) for x in bin_counts.index ]
bin_counts.plot(kind='bar', alpha=1, rot=0)
plt.show()

年龄分布

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值