pandas 切片_你知道pandas库吗?7分钟内快速了解

    你想学习数据科学吗?你想分析大量数据吗?你是否想只用几行代码来操作Excel和CSV呢?如果你的答案是肯定的,那么,Pandas就是你在找的库。它是Python最受追捧的库之一,并且很容易上手。那你还在犹豫什么?看完本篇本文章,你将学习到Pandas库的使用技巧和方法。

    Pandas在数据科学中发挥着重要作用,它可帮助您建立数据科学家和数据分析师的基础技能。

409c256292aa461a7024b229dd93a8e0.png

1、Pandas是什么?

    数据是当今世界不可或缺的一部分。它可以帮助我们预测各种事件,并为我们的生活指明方向。Pandas帮助我们控制和操纵这些数据。因此,如果不了解Pandas的知识,您可能会完全忘了尝试成为一名数据科学家或数据分析师。Pandas是初学者使用数据的必不可少的工具。

    Pandas提供了基本的数据结构,如Series,DataFrame和Panel,可用来处理数据集和时间序列。

    它是免费使用的开放源代码库,使其成为世界上使用最广泛的数据科学库之一。

    Pandas拥有执行各种任务的能力。无论是执行诸如查找数据的均值,中位数和众数之类的任务,还是根据我们的意愿处理大型CSV文件并处理内容的任务,Pandas都能做到。简而言之,要掌握数据科学,您必须精通Pandas。

2、如何安装Pandas?

    让我们以安装Pandas的方法开始我们的Python Pandas教程。

2.1、使用Anaconda安装Pandas

    这是在系统上获取Pandas的最简单方法,建议新手和没有经验的用户使用,因为你还可以获得很多其它重要的库,例如NumPy和SciPy。你只需访问https://www.anaconda.com/distribution/#windows并下载您想要的版本。下载安装程序后,只需执行简单的设置过程即可。安装程序将为您完成所有工作,结束后,您可以轻松访问Pandas库。

2.2、用pip安装Pandas

    这也是一种简单的方法。如果你电脑上安装有Python 2或Python 3,则可以直接用pip来安装。你需要在终端或命令提示符下键入命令:

pip install pandas

3、Pandas的关键组成部分

    Pandas Series - Pandas中的序列可以看作是一维数组,用于处理和操作存储在其中的数据。

    Pandas DataFrame - 这是Pandas中的一种数据结构,由多个序列组成。通常,可以将Pandas DataFrame与二维数组进行比较。 

    这些数据结构频繁地用来存储和操作数据。

4、Pandas库的体系结构

    如果没有库的体系结构,这篇Python Pandas教程是不完整的。因此,让我们讨论下Pandas中的文件层次结构。

  • pandas/core:包含有关Pandas库的数据结构。

  • pandas/src:保留Pandas依赖于某些算法的基本功能。它们通常用C或Cython编写。

  • pandas/io:携带工具进行输入和输出,文件,数据等

  • pandas/tools:Pandas中各种功能和操作的代码和算法。例如:合并和联接,串联等。

33ef8c71bba9f05414309271730dc7ec.png

Pandas的文件层次结构

  • pandas/sparse:携带稀疏版本,即为处理Pandas中各种数据结构的缺失值而制作的版本。

  • pandas/stats:包含与统计相关的函数,例如线性回归

  • pandas/util:由测试工具和各种其他实用程序组成,用于调试库。pandas/rpy:包含有助于连接到R的接口。它称为R2Py

5、Python Pandas操作

    在Python Pandas教程的这一部分中,我们将执行Pandas中的一些重要功能和操作。

5.1、切片

    你可以根据需要切片或切割DataFrame以获取部分数据。它有助于筛选出对你至关重要的数据。

示例

    如果我们有一个名为“ ser”的系列数据结构,该结构由[1、4、6、7、3、8]组成,然后使用命令ser [0:3],我们可以对数据集进行切片以得到前三项[1、4、6]

5.2、合并与关联

    顾名思义,合并有助于合并多个数据集。甚至可以选择要在两组之间保持相同的列。但是合并只能按列进行。当使用关联时,需要添加索引。

示例

    如果集合A为:

951dae8b305350a715d2fb63ba5876bc.png

    集合B为:

822de8d8b9710b32b566907f2229822c.png

    通过对这两个集合进行合并,我们可以得到:

ccfe43c112d2b9d0493d0bf273c59b2e.png

5.3、并列

    Pandas的并列基本上是将两个数据集按行形成一个数据集。

示例

    如果集合A为:

48089d52981fb7f61a548465f14f1b94.png

    集合B为:

f0c422d9bd0e686b75dd012d7d8e668d.png

    并列之后为:

de0efc9b3ce56b2832f1601ee59bb65f.png

    5.4、索引变更

我们可以更改任何数据框的索引。这将有助于我们更好地进行操作。

示例

008709be4afad9df10720dda850adbbf.png

    在此数据集中,我们可以选择索引列为任何列。像“item no”一样,对其构建索引。

5.5、分组

    此功能有多种用途,主要用于根据条件将数据分组在一起。

示例

9343b8098c58e471c48bf7bd03e912c8.png

    使用groupby函数,我们可以将蔬菜和水果分组:

输出

7ec5ff1e8e6ea85b65c73321dd0bf7f6.png

5.6、数据转换

    它帮助我们将一种形式的数据转换为另一种形式。例如:将CSV转换为HTML。

6、Pandas的特点

Python Pandas具有很多功能。最关键的是:

  • 数据操作:Pandas提供了许多功能和功能来对数据集执行各种操作。

  • 处理缺失值:数据集是不完善的,并且包含许多丢失的数据。使用相关库可以有效地处理此问题。

  • 文件格式支持:Pandas支持各种形式的文件,用于输入和输出目的。

  • 数据清理:数据可能非常混乱。Pandas提供了多种工具,可以帮助清理数据并使数据可用于数据分析。

  • 可视化:您可以直观地查看使用Pandas进行数据分析的结果。这有助于您更好地了解结果。

  • Python支持:Pandas与Python一起运行。这使我们可以访问Python的其它库,例如NumPy,SciPy和MatPlotLib。

7、Pandas的应用

    Python Pandas教程的这一部分告诉您在哪里会用到Pandas。

7.1 数据分析

    它是Pandas的基本用途之一。该库能够处理大数据集,适用于分析大量的数据。使用Pandas,我们能够轻松地清理和过滤我们要分析的数据。一些使用Pandas进行数据分析的领域有:

  • 经济学:很多经济学都依赖于分析数据并试图找到趋势和相似之处。Pandas在这方面非常有帮助。

  • 统计学:Pandas提供了许多执行各种统计操作的功能。

  • Web分析:Pandas可以帮助阅读和分析网站流量,以各种方式提供有用的见解和改进网站。

7.2 机器学习

    它有助于为模型提供数据以学习和预测结果。没有Pandas,机器学习模型将无法有效读取数据。导入数据和对其进行分析的能力非常重要。它会用在如下方面:

  • 推荐系统:仅因为有Netflix和Spotify之类的机器学习网站,才能为其用户提供出色的建议。

  • 金融:机器学习可用于预测库存。Pandas用于处理以前的股市交易数据,有助于预测未来的交易。

  • 自然语言处理(NLP):使用机器学习来理解人类语言及其复杂性。

8、使用Pandas的公司列表

    每个使用python研究数据科学的公司都会使用Pandas。 一些比较出名的公司包括:

  • 优步

  • IBM公司

  • AppNexus

  • 摩根大通

  • 高盛

  • Spotify

  • 百事可乐

  • AQR资本管理公司

  • Vital labs

9、总结

    希望对Pandas的介绍可以帮助您了解Python库的能力。对于任何数据科学家或机器学习爱好者来说,Pandas都是必不可少的库。这两个领域都是高回报和有趣的领域,并且目前正在蓬勃发展。因此,学习Pandas已变得至关重要。

往期回顾

  • Spark 3.0 重磅发布,包含3400 多个补丁,功能特性全面升级!

  • 2020年使用最多的大数据分析工具

  • 当Python遇上Echarts,快速图表开发,即学即用

f11dd0735c6a7ce6888db02b92ce9571.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值