描述统计DataFrame数值型特征数据
- 准备数据
准备数据meal_order_detail1.csv,并将meal_order_detail1.csv放到Linux本地/course/DataAnalyze/data目录
- 数值型特征的描述性统计
- pandas库基于NumPy,可以用这些函数对数据框进行描述性统计,例如代码 421。
In[33]: | import numpy as np print('订单详情表中amount(价格)的平均值为:', np.mean(detail['amounts'])) |
Out[33]: | 订单详情表中amount(价格)的平均值为: 45.343084145901045 |
- 上述用numpy实现菜品销量价格的均值,也可以通过pandas实现,具体实现详如代码 422所示。
In[34]: | print('订单详情表中amount(价格)的平均值为:', detail['amounts'].mean()) |
Out[34]: | 订单详情表中amount(价格)的平均值为: 45.343084145901045 |
- Pandas还提供了一个方法叫作describe,能够一次性得出数据框所有数值型特征的非空值数目、均值、四分位数、标准差。具体实现代码 和结果如代码 423所示。
In[35]: | print('订单详情表counts和amounts两列的描述性统计为:\n', detail[['counts','amounts']].describe()) |
Out[35]: | 订单详情表counts和amounts两列的描述性统计为: counts amounts count 2769.000000 2769.000000 mean 1.111593 45.343084 std 0.626521 36.841316 min 1.000000 1.000000 25% 1.000000 25.000000 50% 1.000000 35.000000 75% 1.000000 56.000000 max 10.000000 178.000000 |