pandas

Pandas是Python语言的一个扩展程序库,用于数据分析。是一个开放源码、BSD许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas名字衍生自术语"paneldata"(面板数据)和"Pythondataanalysis"(Python数据分析)。是一个强大的分析结构化数据的工具集,基础是Numpy(提供高性能的矩阵运算)。可以从各种文件格式比如CSV、JSON、SQL、MicrosoftExcel导入数据。可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。Pandas广泛应用在学术、金融、统计学等各个数据分析领域。

使用pip安装pandas:

        pipinstallpandas

导入pandas

         importpandasaspd

Pandas数据结构-Series

Series由索引(index)和列组成,函数如下:pandas.Series(data,index,dtype,name,copy)

参数说明:

data:一组数据(ndarray类型)。

index:数据索引标签,如果不指定,默认从0开始。

dtype:数据类型,默认会自己判断。

name:设置名称。

copy:拷贝数据,默认为False。

 

PandasCSV文件

CSV(Comma-SeparatedValues,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。

CSV是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。Pandas可以很方便的处理CSV文件,本文以nba.csv为例,你可以下载nba.csv或打开nba.csv查看。

实例

import pandas as pd

df=pd.read_csv('nba.csv')

print(df.to_string())

to_string()用于返回DataFrame类型的数据,如果不使用该函数,则输出结果为数据的前面5行和末尾5行,中间部分以...代替。

实例

import pandas as pd

df=pd.read_csv('nba.csv')

print(df)

Pandas清洗空值

如果我们要删除包含空字段的行,可以使用dropna()方法,语法格式如下:DataFrame.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)

参数说明:

axis:默认为0,表示逢空值剔除整行,如果设置参数axis=1表示逢空值去掉整列。

how:默认为'any'如果一行(或一列)里任何一个数据有出现NA就去掉整行,如果设置how='all'一行(或列)都是NA才去掉这整行。

thresh:设置需要多少非空值的数据才可以保留下来的。

subset:设置想要检查的列。如果是多个列,可以使用列名的list作为参数。

inplace:如果设置True,将计算得到的值直接覆盖之前的值并返回None,修改的是源数据。我们可以通过isnull()判断各个单元格是否为空。

实例

import pandas as pd

df=pd.read_csv('property-data.csv')

print(df['NUM_BEDROOMS'])

print(df['NUM_BEDROOMS'].isnull())

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值