pandas 介绍之二-取值和选择
作者:everyang.net 老Lin
前言:上一篇介绍了pandas三种基本结构的创建,index是一个不可变数组和数据集;series是一个系列,可由列表、字典、np结构创建,也可以看做是Df结构的子集;而dataFrame是多维数组,可由多个字典或np多维数组构建。基本数据结构创建后,就需要调用。如果数据比如交易量达到百万级,要找出其中某个值是一个基础,但也是一个关键的问题。所以我们讨论的,都是在海量数据背景下,但用简单的数据更好实验,因为原理相同。
一、系列series对象的选择方法
1、象字典一样取值
import pandas as pd
codeDict = {'beijing':'010','shanghai':'021','wuhan':'027','nanjing':'025'}
codePds = pd.Series(codeDict)
print(codePds['wuhan']) # out 021,类似字典
print('nanjing' in codePds.keys()) # out True,类似字典key判定
print('024' in codePds) # out False, 这里不能带values
print(list(codePds.items())) # 直接打印items不行,需要转换为列表
2、筛选和查询,用布尔掩码
假定我们有一个100万条数据量,需要找出其中大于0.5