1.商品数据分析
文件名称: doc/chipo.csv
链接:提取码: jn96
文件描述: 每列数据分别代表如下: 订单编号, 订单数量, 商品名称, 商品详细选择项, 商品总价格
需求1:
1). 从文件中读取所有的数据;
2). 获取数据中所有的商品名称;
3). 跟据商品的价格进行排序, 降序,
将价格最高的20件产品信息写入mosthighPrice.xlsx文件中;
需求2:
1). 统计列[item_name]中每种商品出现的频率,绘制柱状图
(购买次数最多的商品排名-绘制前5条记录)
2). 根据列 [odrder_id] 分组,求出每个订单花费的总金额。
3). 根据每笔订单的总金额和其商品的总数量画出散点图。
需求1:
1). 从文件中读取所有的数据;
goodsInfo = pd.read_csv('doc/chipo.csv')
print(goodsInfo)
# print(goodsInfo.head())
# print(goodsInfo.tail())
# print(goodsInfo.info())
# print(goodsInfo.describe())
2). 获取数据中所有的商品名称;
print("商品名称显示: \n", goodsInfo['item_name'].head()) #显示前5
print("商品名称显示: \n", goodsInfo.item_name.head()) #同理
3). 跟据商品的价格进行排序, 降序,将价格最高的20件产品信息写入mosthighPrice.xlsx文件中;
# 重新赋值;因为价格里面有$符号,str.strip去掉$,字符串类型转为浮点型
goodsInfo.item_price = goodsInfo.item_price.str.strip('$').astype(np.float)
highPriceData = goodsInfo.sort_values('item_price', ascending=False)
print(highPriceData.head(5))
filename = '/tmp/mostHighPrice.xlsx'
highPriceData.to_excel(filename)
print("保存成功.......")
这里讲解一下字符串去掉$的操作:
import pandas as pd
import numpy as n