python-DataFrame练习

最新推荐文章于 2024-05-04 00:00:00 发布

淋巴不想动

最新推荐文章于 2024-05-04 00:00:00 发布

阅读量2.2k

点赞数

分类专栏： python DataFrame

本文链接：https://blog.csdn.net/weixin_43067754/article/details/87974379

版权

本文通过Python DataFrame对商品数据进行分析，包括读取数据、商品名称统计、价格排序；同时探讨消费金额与小费、性别、吸烟的关系；最后研究电影时长与排名的关联。涉及文件包括chipo.csv、tips.csv和special_top250.csv，通过数据可视化展示各类图表。

摘要由CSDN通过智能技术生成

1.商品数据分析

文件名称： doc/chipo.csv
链接:提取码: jn96

文件描述: 每列数据分别代表如下: 订单编号, 订单数量, 商品名称，商品详细选择项，商品总价格
需求1：
1). 从文件中读取所有的数据;
2). 获取数据中所有的商品名称；
3）. 跟据商品的价格进行排序，降序，
将价格最高的20件产品信息写入mosthighPrice.xlsx文件中;

需求2：
1). 统计列[item_name]中每种商品出现的频率，绘制柱状图
(购买次数最多的商品排名-绘制前5条记录)
2). 根据列 [odrder_id] 分组，求出每个订单花费的总金额。
3). 根据每笔订单的总金额和其商品的总数量画出散点图。

需求1：
1). 从文件中读取所有的数据;

goodsInfo = pd.read_csv('doc/chipo.csv')
print(goodsInfo)
# print(goodsInfo.head())
# print(goodsInfo.tail())
# print(goodsInfo.info())
# print(goodsInfo.describe())

在这里插入图片描述

2). 获取数据中所有的商品名称；

print("商品名称显示: \n", goodsInfo['item_name'].head())  #显示前5
print("商品名称显示: \n", goodsInfo.item_name.head())  #同理

在这里插入图片描述
3). 跟据商品的价格进行排序，降序，将价格最高的20件产品信息写入mosthighPrice.xlsx文件中;

# 重新赋值；因为价格里面有$符号，str.strip去掉$,字符串类型转为浮点型
goodsInfo.item_price = goodsInfo.item_price.str.strip('$').astype(np.float)
highPriceData = goodsInfo.sort_values('item_price', ascending=False)
print(highPriceData.head(5))
filename = '/tmp/mostHighPrice.xlsx'
highPriceData.to_excel(filename)
print("保存成功.......")

这里讲解一下字符串去掉$的操作：