一个好的机器学习者,首先是一个更好的数据分析者,对于数据分析而言,一个很好用的开源库可以说是pandas库了。而pandas则是基于numpy,再开发的。学好pandas,走遍天下都不怕。
对于pandas而言,有三大数据结构,其中最主要的二个数据结构,分别为series和dataframe, 还有一个为Panel。其实主要说的还是前二种。贴一个学习的链接。https://www.yiibai.com/pandas/python_pandas_data_structures.html#article-start
对于Series而言:
是一维的数据。其实对于series而言,类似于字典,也就是键值对。
因为pandas是建立在numpy之上的,所以有很多的性质,二者是类似的。还是基于几个方面来介绍Series。
一,Series的创建
1)采用默认的索引的方式来创建
2)采用自定义的方式来创建(默认的索引,implicit index;自定义的索引,explicit index)
3)通过字典来创建(通过name来给series数据起名字)
import numpy as np
import pandas as pd
data = pd.Series([1, 2, 3.0, np.nan])
print list(data.items())
print data.index
print data.values
print data
data1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print data1['a'], data1[0]
dic = {'beijing': 100, 'tianjin': 120, 'shanghai': 150}
data2 = pd.Series(dic)
print data2['beijing'], data2[0]