Pandas是Python语言的一个扩展程序库,用于数据分析。是一个开放源码、BSD许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas名字衍生自术语"paneldata"(面板数据)和"Pythondataanalysis"(Python数据分析)。是一个强大的分析结构化数据的工具集,基础是Numpy(提供高性能的矩阵运算)。可以从各种文件格式比如CSV、JSON、SQL、MicrosoftExcel导入数据。可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。Pandas广泛应用在学术、金融、统计学等各个数据分析领域。
使用pip安装pandas:
pipinstallpandas
导入pandas
importpandasaspd
Pandas数据结构-Series
Series由索引(index)和列组成,函数如下:pandas.Series(data,index,dtype,name,copy)
参数说明:
data:一组数据(ndarray类型)。
index:数据索引标签,如果不指定,默认从0开始。
dtype:数据类型,默认会自己判断。
name:设置名称。
copy:拷贝数据,默认为False。
PandasCSV文件
CSV(Comma-SeparatedValues,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。
CSV是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。Pandas可以很方便的处理CSV文件,本文以nba.csv为例,你可以下载nba.csv或打开nba.csv查看。
实例
import pandas as pd
df=pd.read_csv('nba.csv')
print(df.to_string())
to_string()用于返回DataFrame类型的数据,如果不使用该函数,则输出结果为数据的前面5行和末尾5行,中间部分以...代替。
实例
import pandas as pd
df=pd.read_csv('nba.csv')
print(df)
Pandas清洗空值
如果我们要删除包含空字段的行,可以使用dropna()方法,语法格式如下:DataFrame.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)
参数说明:
axis:默认为0,表示逢空值剔除整行,如果设置参数axis=1表示逢空值去掉整列。
how:默认为'any'如果一行(或一列)里任何一个数据有出现NA就去掉整行,如果设置how='all'一行(或列)都是NA才去掉这整行。
thresh:设置需要多少非空值的数据才可以保留下来的。
subset:设置想要检查的列。如果是多个列,可以使用列名的list作为参数。
inplace:如果设置True,将计算得到的值直接覆盖之前的值并返回None,修改的是源数据。我们可以通过isnull()判断各个单元格是否为空。
实例
import pandas as pd
df=pd.read_csv('property-data.csv')
print(df['NUM_BEDROOMS'])
print(df['NUM_BEDROOMS'].isnull())