一、pandas是什么
一个基于numpy的数据处理数据分析的工具。
特点:
Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。
一个简单实例:
import pandas as pd
#以下代码是一个比较简单的dataframe数据类型的实例化案例。
mydataset = {
'sites': ["Google", "Runoob", "Wiki"],
'number': [1, 2, 3]
}
myvar = pd.DataFrame(mydataset)
print(myvar)
以上代码输出:
二、了解pandas的两种主要数据结构
大致的理解:pandas的series数据结构 = 表格的一列 = 一维数组 = Python的一维列表
series()函数的参数说明:
pandas.Series( data, index, dtype, name, copy)
'''
data:一组数据(ndarray 类型)。
index:数据索引标签,如果不指定,默认从 0 开始。
dtype:数据类型,默认会自己判断。
name:设置名称。
copy:拷贝数据,默认为 False。
'''
以下案例表示数据被series处理后后输出成的样子:
指定某一字段的索引值:
import pandas as pd
a = ["Google", "Runoob", "Wiki"]
myvar = pd.Series(a, index = ["x", "y", "z"])
print(myvar)
索引值和字段对应关系如下:
使用索引值去取值:
import pandas as pd
a = ["Google", "Runoob", "Wiki"]
myvar = pd.Series(a, index = ["x", "y", "z"])
print(myvar["y"])
#输出结果如下:
#Runoob
记忆点:series对象[索引值]取值,类似于列表的通过索引取值,只不过series的索引可以指定。
从上述案例可知,可以通过series()对列表操作,并通过index参数指定索引来创建series对象,如果实现上述相同效果,我们还可以通过series()直接对字典类型处理获得,这时字典的keys被自动默认为series对象的索引。如下:
import pandas as pd
sites = {1: "Google", 2: "Runoob", 3: "Wiki"}
myvar = pd.Series(sites)
print(myvar)
运行效果:
同样的,可以通过指定index索引值来获取部分数据:
import pandas as pd
sites = {1: "Google", 2: "Runoob", 3: "Wiki"}
myvar = pd.Series(sites, index = [1, 2])
print(myvar)