探索Chipotle快餐数据
chipotle.tsv
1.将数据集存入一个名为chipo的数据框内
import pandas as pd
chipo = pd.read_csv("./data/chipotle.tsv" sep='\t')
2.查看前10行内容
chipo.head(10)
3.数据集中有多少个列(columns)?
chipo.shape[1]
# 5
4.打印出全部的列名称
chipo.columns
# Index(['order_id', 'quantity', 'item_name', 'choice_description',
'item_price'],
dtype='object')
5.数据集的索引是怎样的?
# 查看索引
chipo.index
# RangeIndex(start=0, stop=4622, step=1)
6.被下单数最多商品(item)是什么? 显示前5个
chipo[['item_name','quantity']].groupby(['item_name'],as_index=False).sum().sort_values(by=['quantity'],ascending=False).head()
7.在item_name这一列中,一共有多少种商品被下单?
chipo['item_name'].nunique()
# 50
8.在choice_description中,下单次数最多的商品是什么?显示前5个
chipo[['choice_description','quantity']].groupby(['choice_description'], as_index=False).sum().sort_values(by=['quantity'],ascending=False).head()
9.一共有多少商品被下单?
chipo['quantity'].sum()
# 4972
10.将item_price转换为浮点数
chipo['item_price'] = chipo['item_price'].apply(lambda x: float(x[1:]))
11.在该数据集对应的时期内,收入(revenue)是多少?
chipo['revenue'] = round(chipo['item_price'] * chipo['quantity'],2)
chipo['revenue'].sum()
# 39237.02
12.在该数据集对应的时期内,一共有多少订单?
chipo['order_id'].nunique()
# 1834
13.每一单(order)对应的平均总价是多少?
chipo['item_price_sum'] = chipo['quantity'] * chipo['item_price']
(chipo[['order_id','item_price_sum']].groupby(['order_id']).sum()).mean()
# item_price_sum 21.394231
dtype: float64