Pandas是基于Numpy创建的Python第三方包, 主要用于数据分析挖掘, 基于Numpy, 拥有比Python原生数据结构更好的执行性能, 相比Numpy, 提供更方便的操作数据表的功能, 因此, 通过系列文章, 熟练掌握Pandas使用.
注: 首先介绍DataFrame的两种数据结构, 不论学习什么数据结构, 主要掌握对其进行增删改查.
1, Series增删改查使用
1.1 Series创建
小贴士: jupyter notebook使用小技巧:
1, tab键: 自动补全
2, shift+tab键: 参数帮助
小贴士: Python的help()使用, 查看函数参数帮助及使用示例
import pandas as pd
# 查看Series使用方法
help(pd.Series())
# 传入默认的data参数
# 索引会是默认的0,1,2,...
pd_s1 = pd.Series([1,2,3,4,5])
pd_s1
# 自定义索引
pd_s2 = pd.Series([1,2,3,4,5],index=list('abcde'))
pd_s2
# 自定义数据类型
import numpy as np
pd_s3 = pd.Series([1,2,3,4,5],dtype = np.int32)
pd_s3
# 给这个Series加一个name属性, 用处不大, 试试而已
pd_s4 = pd.Series([1,2,3,4,5],name="测试Series")
pd_s4
# 通过标准输入添加data, 暂时没有发现应用场景, 试试而已
pd_s5 = pd.Series(input('请输入一串字符'),copy=True)
pd_s5
1.2 Series查询
1.3 Series查询
1.4 Series删除
2, DataFrame
2.1 数据框创建
方式1: 普通参数
方式2: 字典参数
persons = {
'name':['小马哥','马云','马化腾'],
'age':[18,28,38],
'gender':['male','male','male']
}
df = pd.DataFrame(persons)
df
2.2 数据框查询
方式1: DataFrame[逻辑判断]
方式2: DataFrame.query()
方式3: DataFrame.iloc()
方式4: DataFrame.loc()