文章目录
Pandas简介
- pandas 是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。
- Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。
- pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
- 它是使Python成为强大而高效的数据分析环境的重要因素之一。
- Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
- 利器之一:Series
类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。- 利器之二:DataFrame
是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。
常见的数据类型:
- 一维: Series
- 二维: DataFrame
- 三维: Panel …
- 四维: Panel4D …
- N维: PanelND …
Series是Pandas中的一维数据结构,类似于Python中的列表和Numpy中的Ndarray,不同之处在于:Series是一维的,能存储不同类型的数据,有一组索引与元素对应。而Ndarray只能存储相同类型的数据。
有关Pandas的更多介绍网站:https://pandas.pydata.org/
导入Pandas库,一般都会用到numpy库,所以我们需要一同导入:
import numpy as np
import pandas as pd
Pandas基本用法
pandas创建Series数据类型
详细操作请看代码:创建series方法code
创建Series 数据类型有三种方法:
- 通过列表创建Series对象
array = [“粉条”, “粉丝”, “粉带”]
s1 = pd.Series(data=array)
- 通过numpy的对象Ndarry创建Serise
n = np.random.randn(5)