'''
1.series
2.dataframe
3.从dataframe中查出series
'''
import pandas as pd
import numpy as np
'''
#1.series 是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成
#1.1 仅有数据列表即可产生最简单的series
s1 = pd.Series([1,'a',5.2,7])
print(s1)
print(s1.index) #获取索引 RangeIndex(start=0, stop=4, step=1) 从0开始,到3结束,步长为1
print(s1.values) #获取数据
#1.2创建一个具有索引标签的series
s2= pd.Series([1,'a',5.2,7],index=['d','b','a','c'])
print(s2)
print(s2.index)
#1.3使用python字典创建series
sdata={'Ohio':35000,'Texas':72000,'Oregon':16000,'Utah':5000}
s3 = pd.Series(sdata)
print(s3)
print(s3['Utah']) #如果查询一个值,那返回的是这个值的type,在这里是float
print(s3[['Ohio','Utah']]) #注意这里有两个中括号[],如果查询两个值,那值的type是series
'''
#2 DataFrame:是一个表格型的数据结构
#每列可以是不同的值的类型(数值、字符串、布尔值等);有行索性index,也有列索性colum;可以被看作由series组成的字典
#2.1 根据多个字典序列创建dataframe
data = {
'state': ['Ohio','Ohio','Ohio','Nevada','Nevada'],
'year':[2000,2001,2002,2001,2002],
'pop':[1.5,1.7,3.6,2.4,2.9]
}
df = pd.DataFrame(data)
print(df)
print(df.dtypes)
#state object
#year int64
#pop float64
#dtype: object
print(df.columns) #Index(['state', 'year', 'pop'], dtype='object')
print(df.index) #RangeIndex(start=0, stop=5, step=1) 这里没有指定index的索引,默认用数字代替
#3.从DataFrame中查询出Series
#如果只查询一列、一行,返回的是pd.Series;如果查询多行、多列,返回的是DataFrame
#3.1查询一列,结果是一个pd.Series
print('year type is',type(df['year'])) #只查询一列,year type is <class 'pandas.core.series.Series'>
#3.2查询多列,结果是一个pd.DataFreame
print(df[['year','pop']])
print(type(df[['year','pop']])) #查询多列,<class 'pandas.core.frame.DataFrame'>
#3.3查询多行,结果是一个pd.Series
print(df.loc[1]) #查询index=1的这一行(但是pandas的表格index是从0开始算的) 1 Ohio 2001 1.7
print(type(df.loc[1])) #<class 'pandas.core.series.Series'>
#3.4查询多行,结果是一个pd.DataFrame
print(df.loc[1:3]) #python的语法在切片时[1:3]不包含右边的3,但是pandas包含右边的3,这是和python语法的区别
'''
state year pop
1 Ohio 2001 1.7
2 Ohio 2002 3.6
3 Nevada 2001 2.4
'''
print(type(df.loc[1:3])) #<class 'pandas.core.frame.DataFrame'>
Pandas学习:索引、查询
最新推荐文章于 2023-10-06 15:29:26 发布