Pandas.DataFrame练手四项目

一、chipotle tsv

数据集:chipotle.tsv-数据集

代码:https://download.csdn.net/download/Albert233333/88508819

1 导入数据,tab分割

有的数据文件是用tab来分开的,读取的时候用下面这个参数

# order_id这一列相同的数字表示 一个消费者同一次进行的交易
# 表格中的每一行表示 用户一次购买的某一个品类 购买的数量
# 消费者可能一次购买很多个不同种类的东西,所以你会发现有好几行的item_name不同,但是order_id完全相同。
# 这都是同一个用户在同一个时间购买的(所以order_id完全相同),只不过购买的物品的种类不同(item_name不同)

import pandas as pd
d = pd.read_csv("chipotle.tsv",delimiter="\t")
d

2 找出下单数最多的 item

降序排列用sort_values

# 这里仅仅统计的是单个
d.sort_values('quantity',ascending=False)

如果你要按照某一列为合并的标准,自行选择合并的方式(求和、均值、max,min)用groupby

你要按照某一列的类别(比如这一列了有薯片、瓶装水、火鸡、沙拉等等商品类别,很多个用户有的买了这个,有的买了那个,你想算出火鸡一共卖了多少件,瓶装水一共卖了多少件),求每个类别的 求和、均值、max,min,用groupby

d.groupby("item_name").sum()[["quantity"]].head()

# 按照销售量最高排序
d.groupby("item_name").sum()[["quantity"]].sort_values(by="quantity", ascending=False)

3 将字符串的某一列移除开头的字符,整列从str转float

打印出在该数据集对应的时期内的收入(revenue)数额 

收入=销量*价格

item_price这一列,每个数字钱都有  $  这个符号,要去掉。然后把整列从str转成float,方便后面的计算。

# 第一部分“.str.lstrip("$")”,是将这一列字符串中所有的第一个元素删掉
#     具体来说是删掉左边的 “$”字符
# 第二部分 “.astype(float)”将这一列所有的元素都转成浮点数
d["item_price"].str.lstrip("$").astype(float)

销量与价格相乘再求和,就是总收入

sum(d["quantity"]*d["item_price"].str.lstrip("$").astype(float))

 二、Titanic

数据集:https://download.csdn.net/download/alienwh329/16680606

代码:https://download.csdn.net/download/Albert233333/88509830

1 将某列设置为索引

df.set_index("PassengerId")

2 绘制扇形图

绘制一个展示男女乘客比例的扇形图

得出男女的具体数字

sex_per = df["Sex"].value_counts()
sex_per

# 把画图的包导入进来
import matplotlib.pyplot as plt

# 这种绘图方式主要用于有多个子图以及复杂的图形布局的时候。

fig,ax = plt.subplots()

# plt.subplots() 会创建一个新的图形(figure)和对应的轴(axes)对象。
# 这个函数返回一个元组,第一个元素是图(figure),第二个元素是轴(axes)。

# fig 是用来设置图形的一些全局属性,比如标题、坐标轴范围等。
# ax 是一个包含两个轴的子图对象࿰
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
要学习 Pandas 库,可以按照以下步骤: 1. 熟悉 Python 基础知识:Pandas 是基于 Python 的数据处理库,因此在学习 Pandas 之前,需要掌握 Python 的基础知识,包括变量、数据类型、函数、条件语句、循环语句等等。 2. 学习数据结构:Pandas 支持多种数据结构,包括 Series、DataFrame、Panel 等等。学习 Pandas 的第一步就是要了解这些数据结构的特点和用法,掌握如何创建、访问、修改和删除这些数据结构中的数据。 3. 掌握数据清洗和预处理技术:在实际数据处理中,需要对数据进行清洗和预处理,包括去除重复值、空值处理、数据类型转换、数据合并等等。Pandas 提供了丰富的函数和方法来完成这些任务,需要掌握这些技术并学会如何应用它们。 4. 学习数据分析和统计技术:Pandas 还提供了多种数据分析和统计技术,包括数据聚合、透视表、分组计算、时间序列分析等等。需要学习这些技术,并了解如何在实际应用中使用它们。 5. 实践项目:最后,通过实践项目来巩固所学知识,例如数据清洗和预处理、数据可视化、机器学习等等。可以参考一些开源数据集,例如 Kaggle 上的数据集,通过 Pandas 对其进行分析和处理。 在学习的过程中,可以参考官方文档和其他学习资源,例如 Pandas 官方文档、Stack Overflow 等等。同时,建议多练习和实践,通过练手项目来巩固所学知识。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

德彪稳坐倒骑驴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值