pandas_2

  • 使用pandas也可以画图

    • plot方法
      -data.cumsum().plot(),plt.show()
  • pandas读取数据

    • 常用的数据类型是 .csv,.h5(hdf5)
    • 读取.csv文件:pandas.read_csv(文件路径,sep=',', name=列索引名子(默认None),usecols=指定读取的列名(默认None))
    • 读取.h5文件:pandas.read_hdf(文件路径,key=读取的键,mode=打开的方式,**kwargs)
  • hdf5

    • hdf5是一种文件类型,适合存储大量的数据,支持存储多个键值。特点是支持压缩,跨平台。
  • pandas保存文件

    • 保存文件到.csv格式。DateFrame.to_csv()
    • 保存文件到.h5格式:DataFrame.to_hdf()

pandas的数据处理

  • 基本处理

    • 缺失值
    判断数据是否为nan:pd.isnull(),pd.notnull()
    处理方式:
    1.存在缺失值nan:
    1.1:删除存在的缺失值:dropna(axis=‘rows’)
    1.2:替换缺失值:fillna()
    2.不存在缺失值nan
    2.1先替换:df.replace()
    2.2再进行缺失值的处理
    • 日期
  • 数据的离散化

    • 数据的类型:连续型:在一个区间内可以无限划分;离散型:分成若干个类,每个类不能再划分
    • pd.get_dummies()
  • 数据的合并

    • 沿轴合并:pd.concat
    • 按照索引合并:pd.join
    • 按照指定列进行合并:pd.merge
  • 交叉表与透视表

    • 交叉表:用于计算分组个数,寻找两个列之间的关系 .pd.crosstab(value1, value2)
    • 透视表:DateFrame.pivot_table([],index=[])
  • 数据的分组与聚合

    • 分组:DataFranme.groupby(by='')
    • 分组后,可以用一些函数再将数据聚合起来:
    • 函数有:count,sum,mean,median,std,var,min,max…
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值