Dataframe的使用方法

本文详细介绍了Pandas DataFrame的使用方法,包括检查数据、选择数据、数据连接(如内连接、左连接、右连接、全连接)以及组合和分组操作。通过示例展示了describe、info、head、tail、selecting、join和groupby等关键功能,帮助理解DataFrame在数据分析中的应用。
摘要由CSDN通过智能技术生成

现在我们已经学会如何将数据导入 DataFrame 中,我们可以利用它来解决工作上遇到的问题。Pandas提供了大量的函数,本文无法全部覆盖,有兴趣的读者可以详细阅读官方说明文档或者利用 google 搜索更多相关的信息——网上有许多 StackOverflow 的问题和一些介绍该软件库的技术博客。

接下来我们将利用MovieLens数据集来介绍 DataFrame 的使用方法。


检查数据

Pandas 中有许多用于获取 DataFrame 基本信息的函数,其中最常用的是 info 方法。


上述输出结果中告诉我们 DataFrame 的一些信息:

1.该数据集是一个 DataFrame 实例。
2.数据的行索引是从 0 到 N-1 的一组数字,其中 N 为 DataFrame 的行数。
3.数据集中总共有 1682 行观测值。
4.数据集中有五列变量,其中变量 video_release_date 中没有数据,变量 release_date 和 imdb_url 中存在个别缺失值。
5.最后一行给出了变量数据类型汇总情况,你可以利用 dtypes 方法获取每个变量的数据类型。
6.保存该数据集所耗费的内存,你可以利用 .memory_usage 获取更多信息。


DataFrames 中还有一个 describe 方法,它用于获取数据集的常用统计量信息。需要注意的是,该方法仅会返回数值型变量的信息,所以我们会得到 user_id 和 age 两个变量的统计量信息。


​从上表中可以看出用户的平均年龄为 34 岁,最年轻的用户为 7 岁,最年长的用户为 73 岁,中位数为 31 岁,25分位数为 25 岁,75 分位数为 43 岁。

你可能已经注意到我的文章中经常使用head方法,默认情况下,head方法会返回数据集的前五条记录,tail方法会返回最后五条记录。



此外,我们还可以利用 Python 的常用切片语法来提取数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值