Pandas统计分析基础
Pandas(Python Data Analysis Library)是基于NumPy的数据分析模块,它提供了大量标准数据模型和高效操作大型数据集所需的工具,可以说Pandas是使得Python能够成为高效且强大的数据分析环境的重要因素之一。
导入方式:import pandas as pd
Pandas有三种数据结构:Series、DataFrame和Panel。Series类似于一维数组;DataFrame是类似表格的二维数组;Panel可以视为Excel的多表单Shee
一、Pandas中的数据结构
1.Series
Series 是一种一维数组对象,包含了一个值序列,并且包含了数据标签,称为索引(index),可通过索引来访问数组中的数据。
Series的创建:
pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
通过列表创建Series:
import pandas as pd
obj = pd.Series([1, -2, 3, -4]) #仅有一个数组构成
print(obj)
创建Series时指定索引:
i = ["a", "c", "d", "a"]
v = [2, 4, 5, 7]
t = pd.Series(v, index = i, name = "col")
print(t)
尽管创建Series指定了index参数,实际Pandas还是有隐藏的index位置信息的。所以Series有两套描述某条数据的手段:位置和标签.
Series位置和标签的使用:
通过字典创建:
如果数据被存放在一个Python字典中,也可以直接通过这个字典来创建Series。
sdata = {
'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
print(obj3)
键值和指定的索引不匹配:
sdata = {
"a" : 100, "b" : 200, "e" : 300}
letter = ["a", "b","c" , "e" ]
obj = pd.Series(sdata, index = letter)
print(obj)
不同索引数据的自动对齐:
sdata = {
'