BD第5课:数据分析Pandas

本文介绍了Python数据分析库Pandas的基础知识,包括数据集的装载、查看数据集的列和行、单元格数据查看及分组统计。通过实例展示了如何加载CSV数据,以及如何进行数据操作和分组统计,帮助理解Pandas在数据分析中的应用。
摘要由CSDN通过智能技术生成

由于本系列文章需要使用 Pandas 对胸罩销售数据进行分析,所以本文会介绍一下 Pandas,并给出一些案例如何通过 Pandas 分析数据,否则如果不了解 Pandas,可能无法理解后面文章的内容。

可能很多人一看到 Pandas,就会联想到中国的国宝大熊猫,其实 Pandas 在 Python 数据分析领域的确是一套国宝级的工具。Pandas 是基于 NumPy 的一套数据分析工具,该工具是为了解决数据分析任务而创建的,Pandas 纳入了大量标准的数据模型,提供了高效地操作大型数据集所需的工具,Pandas 提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使 Python 成为强大而高效的数据分析环境的重要因素之一。

Pandas 开发环境搭建

Pandas 是第三方程序库,所以在使用 Pandas 之前必须安装 Pandas。如果读者使用的是 Anaconda Python 开发环境,那么 Pandas 已经集成到 Anaconda 环境中了,不需要再安装;如果读者使用的是官方的 Python 开发环境,可以使用如下的命令安装 Pandas。

        pip install pandas
      

如果要了解 Pandas 更详细的情况,请访问官方网站

安装完 Pandas 后,可以测试一下 Pandas 是否安装成功,读者可以进入 Python 的 REPL 环境,然后使用下面的语句导入 Pandas 模块,如果不出错,就说明 Pandas 已经安装成功了。

        import pandas
      

本文使用的样本数据集

本文会使用一个样本数据集为例来讲解如何用 Pandas 来分析数据,不过首先要先解释一下这个数据集中的数据,数据集的文件名是 gapminder.tsv,图1是数据集的部分数据和字段名。


v2-0a6d1a33797a08f81f67d415a6b94e8f_b.jpg


图1 样本数据集的部分数据

这个样本数据集有近 2000 条数据,是 1952 到 2007 年世界各国经济发展的数据,每5年记录一次。每列直接用制表符分隔,这个数据集涉及到一些字段,现在来解释一下。

  • Country:国家
  • Continent:洲
  • Year:年份
  • LifeExp:预期寿命
  • POP:人口
  • GdpPercap:分均 GDP

如果用文本方式打开 gapminder.tsv 文件看着不舒服,也可以使用 Excel 打开这个文件,打开后的结果如图2所示。


v2-3693ab2b55e463d4d38e6e7fa1c04aa5_b.jpg
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值