以一个music表为例,查找音乐类别分别有多少个,占比是多少,有哪几种genre,总共有几种
1.首先查找每中音乐类别的数量
方法一:以一个music的表格为例,values_count()是series的argument
import pandas as pd
music=pd.read_csv('music.csv')
music['music genre'].value_counts()
结果如下
方法二:用groupby把数据按照gender分类,输出count()
不推荐 没有必要这时候用
import pandas as pd
music=pd.read_csv('music.csv')
music.groupby('music genre')['music genre'].count()
效果一样:
这里相当与sql中的
select music_genre,count(*)
from music
group by music_genre
grouppby的正确使用场合:根据genre分类 查找每个分类下的最大年龄
import pandas as pd
music=pd.read_csv('music.csv')
music.groupby('music genre')['age'].max()
输出结果如下:
2.查找每个genre的占比
import pandas as pd
music=pd.read_csv('music.csv')
music['music genre'].value_counts(normalize=True)
输出结果(结果为float64):
3.查找有哪几种genre
unique()
4.查找总共有多少genre
nuinque()
5. crosstab
相每种音乐风格下 各个年龄段的人的个数
相当于透视表的row是genre,col是age
pd.crosstab(music['music genre'],music.age)