import pandas显示无此模块_pandas模块基础学习

本文详细介绍了Pandas库的基础知识,包括Series和DataFrame两种核心数据结构的创建、操作以及数据筛选。重点讲解了如何通过索引、标签以及逻辑判断选取数据,还涉及数据设置、缺失值处理、数据导入导出、数据合并等内容,是Pandas入门的实用教程。
摘要由CSDN通过智能技术生成

Pandas类似R语言中的数据框(DataFrame),Pandas基于Numpy,但是对于数据框结构的处理比Numpy要来的容易。

1. Pandas的基本数据结构和使用

Pandas有两个主要的数据结构:Series和DataFrame。Series类似Numpy中的一维数组,DataFrame则是使用较多的多维表格数据结构。

Series的创建

>>>import numpy as np

>>>import pandas as pd

>>>s=pd.Series([1,2,3,np.nan,44,1]) # np.nan创建一个缺失数值

>>>s # 若未指定,Series会自动建立index,此处自动建立索引0-5

0 1.0

1 2.0

2 3.0

3 NaN

4 44.0

5 1.0

dtype: float64

DataFrame的创建

>>>dates=pd.date_range('20170101',periods=6)

>>>dates

DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',

'2017-01-05', '2017-01-06'],

dtype='datetime64[ns]', freq='D')

>>>df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

>>>df

a b c d

2017-01-01 -1.993447 1.272175 -1.578337 -1.972526

2017-01-02 0.092701 -0.503654 -0.540655 -0.126386

2017-01-03 0.191769 -0.578872 -1.693449 0.457891

2017-01-04 2.121120 0.521884 -0.419368 -1.916585

2017-01-05 1.642063 0.222134 0.108531 -1.858906

2017-01-06 0.636639 0.487491 0.617841 -1.597920

DataFrame可以跟Numpy一样根据索引取出其中的数据,只是DataFrame索引方式更加多样化。DataFrame不仅可以根据默认的行列编号来索引,还可以根据标签序列来索引。

还可以采用字典的方式创建DataFrame:

>>>df2=pd.DataFrame({'a':1,'b':'hello kitty','c':np.arange(2),'d':['o','k']})

>>>df2

a b c d

0 1 hello kitty 0 o

1 1 hello kitty 1 k

对于DataFrame的一些属性也可以采用相应的方法查看

dtype # 查看数据类型

index # 查看行序列或者索引

columns # 查看各列的标签

values # 查看数据框内的数据,也即不含表头索引的数据

describe # 查看数据的一些信息,如每一列的极值,均值,中位数之类的,只能对数值型数据统计信息

transpose # 转置,也可用T来操作

sort_index # 排序,可按行或列index排序输出

sort_values # 按数据值来排序

一些例子

>>>df2.dtypes

a int64

b object

c int64

d object

dtype: object

>>>df2.index

RangeIndex(start=0, stop=2, step=1)

>>>df2.columns

Index(['a', 'b', 'c', 'd'], dtype='object')

>>>df2.values

array([[1, 'hello kitty', 0, 'o'],

[1, 'hello kitty', 1, 'k']], dtype=object)

>>>df2.describe # 只能对数值型数据统计信息

a c

count 2.0 2.000000

mean 1.0 0.500000

std 0.0 0.707107

min 1.0 0.000000

25% 1.0 0.250000

50% 1.0 0.500000

75% 1.0 0.750000

max 1.0 1.000000

>>>df2.T

0 1

a 1 1

b hello kitty hello kitty

c 0 1

d o k

>>>df2.sort_index(axis=1,ascending=False) # axis=1 按列标签从大到小排列

d c b a

0 o 0 hello kitty 1

1 k 1 hello kitty 1

>>>df2.sort_i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值