话不多说,直接上代码
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 读取文件
luohu_data = pd.read_csv('./bj_luohu.csv', index_col='id')
# 显示前5条信息
print(luohu_data.head())
# describe() 展示一些基本信息
print(luohu_data.describe())
name birthday company score
id
1 杨效丰 1972-12 北京利德华福电气技术有限公司 122.59
2 纪丰伟 1974-12 北京航天数据股份有限公司 121.25
3 王永 1974-05 品牌联盟(北京)咨询股份公司 118.96
4 杨静 1975-07 中科专利商标代理有限责任公司 118.21
5 张凯江 1974-11 北京阿里巴巴云计算技术有限公司 117.79
score
count 6019.000000
mean 95.654552
std 4.354445
min 90.750000
25% 92.330000
50% 94.460000
75% 97.750000
max 122.590000
从这些基本信息可以看出
2018年北京落户一共有6019个人
平均积分是95.65
最低分是90.75
最高分是122.59
继续上代码
# 按照company分组并计算每组个数
# groupby默认会把by的这个列作为索引返回,可以设置下as_index=False
company_data = luohu_data.groupby('company', as_index=False).count()[['company', 'name']]
# 重命名列名称
company_data.rename(columns={'name': 'people_count'}, inplace=True)
company_sorted_data = company_data.sort_values('people_count', ascending=False)
print(company_sorted_data)
# 落户人数排名前十的公司
print(company_sorted_data.head(10))
company people_count
1081 北京华为数字技术有限公司 137
312 中央电视台 73
2457 北京首钢建设集团有限公司 57
3082 百度在线网络技术(北京)有限公司 55
3194 联想(北京)有限公司 48
214 中国民生银行股份有限公司 40
264