2-03 Pandas 介绍、安装与加载

介绍完 NumPy 可以体会到 NumPy数组的强大处理及运算能力,在进行数据分析之前,还有很多事前准备工作要完成,比方读取数据,指的是从不同的媒介或是档案格式来获得数据;清洗数据,将得到的数据进行筛选,因为有些数据栏位信息不足,如个人信息中缺少性别数据;缺乏数据,如没有填写年龄等等,对于这样的处理能力并非是 NumPy 所擅长的工作,这一小节就是要介绍这样的工具包 - Pandas

Pandas 最初由 AQR Capital Management 于 2008 年 开发,并于 2009 年底开源出来。Pandas 最初被作为金融数据分析工具而开发出来,而 Pandas 的名称来自于面板数据(PANel data)和数据分析(Data Analysis)。Pandas 为 Python 提供了快速、灵活和富于表现力的数据结构,旨在使处理“相关的 (relational) ”或“有标签的 (labeled) ”数据既简单又直观。此外,它希望成为任何程序语言中最强大、最灵活的开源数据分析/处理工具,它已经在朝着这个目标前进。

Pandas 非常适合许多不同种类的数据:

  • 带有异构类型列的表格数据,如在一个 SQL 表或 Excel 电子表格中。
  • 有序和无序(不一定是固定频率)时间序列数据。
  • 带有行和列标签的任意矩阵数据(同构或异构)
  • 任何其他形式的观察/统计数据集,这些数据不需要被标记就能被放入 Pandas 的数据结构中。

Pandas 的两个主要数据结构,Series (1 维)和 DataFrame (2 维)。Pandas 是可以基于 NumPy 所提供的运算下并与许多其他第三方库很好地集成到科学计算环境中。

以下是 Pandas 擅长的几件事:

  • 对于浮点和非浮点数据中,易于操作缺失数据(表示为 NaN )。
  • 大小可变:可以使用 DataFrame 轻易地操作列的插入或删除。
  • 自动和显式数据调整:对象可以与一组标签对齐,或者用户可以简单地忽略标签;透过 Series 和 DataFrame 能自动对齐数据
  • 可以对数据集执行拆分-应用-合并操作的功能,用于聚合和转换数据。
  • 可以轻易地将 Python 和 NumPy 数据结构中参差不齐、索引不同的数据被放入 DataFrame 对象中。
  • 直觉的合并和连接数据集
  • 灵活的重塑和数据集的旋转
  • 对于外部数据提供强大的汇入汇出功能:一般文件(CSV 和分隔)、Excel 文件、数据库、以及从HDF5 format

这些原则中的许多是为了解决在使用其他语言/科学研究环境时经常遇到的缺点。对于数据科学家来说,处理数据通常分为多个阶段:收集和清理数据,对其进行分析/建模,然后将分析结果组织成适合绘图或表格显示的形式。pandasis是所有这些任务的理想工具。

安装 Pandas

为避免不必要的连线失误,记得先设定地区镜像站,并在安装时指定延长逾时的时限以及仅安装给目前指用者

# 设定地区镜像站
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
  
# --user 选项可以设置只安装在当前的用户下 (C:\Users\user\AppData\Roaming\Python\Python39\site-packages) ,而不是写入到系统目录 (D:\Program Files\Python39\Lib\site-packages)。
# --default-timeout 将指定延长逾时的时限为 100 秒
pip install --user --default-timeout=100 pandas
  
# 显示安装包 numpy 信息
pip show pandas

透过上述指令,可以确认 pandas 已经完成安装,最后的检查步骤是去导入并运行检查版本,__version__是内定变量,所有包都可以用这个变量来检视版本,如下图所示。

# 进入 python 交互模式
py
import pandas as pd
pd.__version__

在这里插入图片描述
圖 2-3-1 导入 pandas 并检查版本

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值