在数据处理过程中,经常会遇到要筛选不同要求的数据,通过 Pandas 可以轻松时间,这一篇我们来看下如何使用 Pandas 来完成数据筛选吧。
# 导入相关库
import numpy as np
import pandas as pd
Pandas 中除了支持 Python 和 Numpy 的索引运算符[]和属性运算符.来访问数据之外,还有很多其他的方式来访问数据,我们一起来看看吧。
index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")
data = {
"age": [18, 30, np.nan, 40, np.nan, 30],
"city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],
"sex": [None, "male", "female", "male", np.nan, "unknown"],
"birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]
}
user_info = pd.DataFrame(data=data, index=index)
# 将出生日期转为时间戳
user_info["birth"] = pd.to_datetime(user_info.birth)
user_info
agebirthcitysex
nameTom18.02000-02-10Bei JingNone
Bob30.01988-10-17Shang Haimale
MaryNaNNaTGuang Zhoufemale
James40.01978-08-08Shen Zhenmale
AndyNaNNaTNaNNaN
Alice30.01988-10-17unknown
字典式 get 访问
我们都知道,Python 中的字典要获取 value 时可以通过 get 方法来获取,对于 Series 和 DataFrame 也一样,他们一样可以通过 get 方法来获取。
# 获取得到所有年龄相关的这一列的信息,结果为一个 Series
user_info.get("age")
name
Tom 18.0
Bob 30.0
Mary NaN
James 40.0
Andy NaN
Alice 30.0
Name: age, dtype: float64