刚才完成了数据的数据探索阶段的工作,具体做了以下步骤。
1.对指定列进行计数统计
使用值计数value_counts来计算每个值出现的次数,在代码框中输入:df['列名']. value_counts()
以列名为pro_type的为例:
df['pro_type'].counts()
2.对数据进行分组计算
对数据进行分组计算在python中使用的是groupby语句。比如将商品的销售额以商品的类目分类统计:
df['pro_sales_num'].groupby(df['pro_type']).sum()
3.筛选指定列中指定值
python中将指定列和指定值进行比较,一样的就选出来。
类如筛选名为鲜花的商品:df[df['class_small']=='鲜花'] 其中红色代表数据集名称,蓝色代表筛选条件。
4.如何筛选数据集中指定列的最大值,最小值和平均值
有两种方法,第一个方法是分开来写:
最大值:df_laptop ['列名'].max()
最小值:df_laptop['