数据
假设我们的数据是这样的,无异常无缺失值,下面我通过几个问题,我们来练习用Pandas进行探索性数据分析~
year | name | salary | title |
---|---|---|---|
2001 | aa | 1500 | first |
2002 | bb | 4300 | first |
2003 | cc | 7000 | second |
2001 | dd | 5000 | third |
问题1: 最高薪水是多少?
我们将数据读取后命名为df
import pandas as pd
df['salary'].max()
同样的,最低(min)、平均(mean)。
问题2: bb的薪水是多少?
突然想到了SQL,是不是一句话的事情,select...from...where... 当然,我们的pandas也是一句话的事情:
df[df['name']=='bb']['salary']
问题3: 收入最高的人是谁?
那我们就定位到收入最高的行~
df[df['salary']==df['salary'].max()]
# or
df.loc[df['salary'].idxmax()]
问题4: 每年所有的员工平均收入?
是不是自然而然想到了分组,group by?
df.groupby('year').mean()['salary']
问题5: 有多少个职称?
这里使用nunique()函数,之前有一个小伙伴和我交流中就发现没有搞懂nunique()函数和unique()函数之间的区别,现在应该懂了吧?
df['title'].nunique()
总结
今天的分享就到这里啦,5个小问题掌握了嘛!数据分析的思维还是很重要的呢!
碎碎念:这种短文分享会不会更有效率些,让人不会有中途退出的冲动或者放在收藏夹里面吃灰哈哈。我个人是挺喜欢的,不知道你是不是一样。最近真是忙到爆炸,打完了第一针HPV9价,工作也还没找到,人生真是艰难,怎么办呢?既然上了生活的贼船,那就做个快乐的海盗吧(oo)
更多推荐
手把手|共享单车数据特征工程SQL笔试 I 经典44题及答案解析~
干货 | 一文让你了解Pandas数据结构
长按二维码
关注我们吧