pandas在大数据分析上的作用越来越大,于是自己学习了下关于Pandas的知识点,独乐乐不如众乐乐。在这分享出来,水平有限,希望大家包涵
一、什么是pandas
- Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的
- pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具
- pandas提供了大量能使我们快速便捷地处理数据的函数和方法
- 它是使Python成为强大而高效的数据分析环境的重要因素之一
二、安装导入pandas
1、安装pandas(最好创建单独的虚拟环境)
在控制台界面输入:
pip install pandas
如果是使用的jupyter notebook的话,可在代码块中运行:
!pip install pandas
安装如下图所示:
2、在当前文件下导入pandas模块
import pandas as pd
pandas的缩写为pd,这个已经是行业默认的了,大家就不要发挥自己的聪明头脑了哈!!!
三、DataFrame和Series介绍
pandas强为什么强,就在于这两个模块,这两个模块也是使Python成为强大而高效的数据分析环境的重要因素之一
Series
Series是线性的数据结构,带有标签的一维数组,轴标签统称为索引,数据和标签之间存在联系
DataFrame
DataFrame是 「数据框」, 类似于Excel, DataFrame是组织数据,也可以理解为:
DataFrame是由很多个数据类型不一样的Series列组成