科学计算库Pandas用法

Pandas是基于Numpy的数据分析库,提供高效的数据结构如Series、DataFrame和MultiIndex。本文详细介绍了如何进行数据操作,包括数据读取、存储、缺失值处理、离散化,以及DataFrame的索引设置和算术运算。通过实例展示了如何利用Pandas进行数据处理和分析。
摘要由CSDN通过智能技术生成

介绍

以Numpy为基础,借力Numpy模块在计算方面性能高的优势,基于matplotlib,能够简便的画图,独特的数据结构。

  • 增强图表可读性
  • 便捷的数据处理能力
  • 读取文件方便
  • 封装了Matplotlib、Numpy的画图和计算

数据结构

Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex(老版本中叫Panel )。
Series是一维数据结构,DataFrame是二维的表格型数据结构,MultiIndex是三维的数据结构。

Series

能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据和与之相关的索引两部分构成。

import pandas as pd
import numpy as np
pd.Series(np.arange(6)+4)
#指定索引
pd.Series(np.arange(4),index=["a","b","c","d"])
# 通过字典数据创建
color = pd.Series({
   'red':100, 'blue':200, 'green': 500, 'yellow':1000})
color
color.index
color.values
color['blue']

DataFrame

np.random.randn(2,3)
pd.DataFrame(np.random.randn(2,3))

# 准备数据
score=np.random.randint(40,100,(10,5))
# 创建列索引
subjects=['chinese','math','english','police','sports']
# 创建行索引
stus=['student_{}'.format(i) for i in range(10)]
score_data=pd.DataFrame(score,index=stus,columns=subjects)
score_data

score_data.shape  #二维
score_data.index
score_data.columns
score_data.T   #转置
score_data.head()   #默认前5lines
score_data.tail(a)  #尾部a行
score_data.info()   #数据情况描述
score_data.values #直接获取其中array的值

DatatFrame索引的设置

score_data.index
score_data.index[4]  #可以访问,但不可以修改--score_data.index[4]="name4" 报错,不可以这样修改

#整体修改
stu=['name_'+str(i) for i in range(score_data.shape[0])]
score_data.index=stu
score_data

# rename实现单个修改
score_data=score_data.rename(index={
   'name_1':'new_1'},columns={
   'police':'政治'})
score_data

重设索引
score_data.reset_index() #不删除原来索引,添加一列索引
score_data.reset_index(drop=True)  #删除并重置索引

将某列值设为新的索引
data=pd.DataFrame({
   'month': [1, 4, 7, 10],
                    'year': [2012, 2014, 2013, 2014],
                    'sale':[55, 40, 84, 31]})
data
data.set_index('month')
data.set_index(["year","month"]).index #Multiindex

set_index(keys, drop=True)
keys : 列索引名成或者列索引名称的列表
drop : boolean, default True.当做新的索引,删除原来的列

MultiIndex

MultiIndex是三维的数据结构;
多级索引(也称层次化索引),可以在Series、DataFrame对象上拥有2个以及2个以上的索引。

data2=data.set_index(["year","month"])
data2.index
data2
data2.index.names #levels的名称
data2.index.levels #每个level的元组值

小结:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值