Pandas官网 Python Data Analysis Library
十分钟pandas入门教学 10 minutes to pandas
Pandas是一个好用的数据分析处理工具; 它的使用基础是Numpy(提供高性能的矩阵运算),常用于数据挖掘和数据分析,同时也提供数据清洗功能。
虽然pandas采用了大量的NumPy编码⻛格,但二者最大的不同是pandas是专⻔为处理表格和混杂资料设计的。 而NumPy更适合处理统一的数值阵列资料。
可以把Pandas套件想像成是Excel一样结构,能够对储存的数据进行运算、搜寻或修改等操作,主要有两种数据结构,分别是单维度的Series及二维度的DataFrame。
工具一:Series
它是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。 仅由一组数据也可产生简单的Series。
工具二:DataFrame
DataFrame是Pandas中的一个表格的数据结构,包含有一组有序的行或称绫轴(column),内容可以是不同的类型,例如数值、字符串、布尔型态等等; DataFrame也有列或称横轴(row)是用来当作数据索引。 DataFrame常用于读取CSV档案、Excel档案或数据库等,并且对其中的数据分析或处理。
接下来来说明pandas操作。
一、创造Pandas物件(Object Creation)
首先导入pandas与numpy库
创建一个pandas的对象,并将这个物件命名为s,观察对象s的内容,可以看到可以包含nan,格式dtype为float64。
也可以创建日期的时间序列,格式为 datetime64[ns] 是一种时间的格式, 频率freq为日。
将上面cell中的dates当做时间指标(date time index),并且用ABCD当做行column的标签(label column)。 使用np.arange.reshape抽取数值。 可以看到横轴标签为时间,纵轴标签为ABCD。
也可以使用字典格式将数据转换为序列,字典格式dict为二个大括号{ }。
二、查看数据(Viewing Data)
使用dtypes查看数据格式。
回到df资料,使用head检视前五笔资料。
也可以使用tail查询尾端资料,tail(3)代表只呈现三笔尾部资料。
index函数查看横轴指标。
colums函式查看纵轴指标,注意colum要加s。
values函式查看数据内容,注意value一样要加s。
describe函式查看统计总结,这个函式会很有用,要特别留意。
T函数则是将数据转置(Transpose),这里T要用大写。
使用sort排序资料,axis=1则是针对 columns排序,ascending选择是否递增,执行后column A 则会移到最后方。
也可以针对数值进行排序,依照column B值的大小重新排序。
三、选择(Selection)
选择要呈现column的数据,使用中括号[]来选择数据,例如这里要呈现column A的数据。
使用中括号范围区间来选择数据。
使用日期区间来选择数据。
四、使用标签来选择数据(Selection by Label)
使用loc指令筛选资料,日期数值为0代表选取2020–01–01的数据。
loc指令加上要显示columns的名称,冒号(:)代表选择全部资料。
loc指令加上rows与columns的名称。
五、依位置筛选(Selection by Position)
首先查看df原始资料。
使用iloc筛选数据,初始位置为0,因此iloc[3]会筛选出日期2020-01-04的数据。
使用整数来设定横轴与纵轴的筛选范围。
使用整数直接设定要筛选的位置。
横轴范围使用1到3,纵轴使用冒号(:)代表选取纵轴所有数据。
纵轴范围使用1到3,横轴使用冒号(:)代表选取横轴所有数据。
也可以只选取得一位置数值。
使用iat选取得一位置数值。
Pandas第一部分就讲到这里。