目录
2.pandas两个常用的工具数据结构——Series和DataFrame
2.2.2 DataFrame中的一列,可以按字典型标记或属性那样检索为Series;
2.2.5 返回DataFrame的values属性(以二维ndarray的形式返回)
pandas——进行数据清洗和分析(适合处理表格或异质型数据)
numpy——数值计算工具(适合处理同质型的数值类数组数据)
matplotlib——数据可视化工具
1.导入pandas
import pandas as pd
2.pandas两个常用的工具数据结构——Series和DataFrame
2.1. Series
Series:一种一维的数组型对象,它包含了一个值序列,并包含了数据标签,称为索引(index)。
不为数据指定索引默认生成的索引是从0-N-1(N是数据的长度)
另一个角度将series考虑成长度固定且有序的字典。所以可以用已存在的字典生成一个series
2.1.1创建series
obj = pd.Series(range(3,10,2))
# 输出:
0 3
1 5
2 7
3 9
dtype: int64
sdata = {'Alice':80,'Bob':88,'Sherry':93}
# 根据已有字典生成一个series
new_sdata = pd.Series(sdata)
# 输出: Alice 80 Bob 88 Sherry 93 dtype: int64
2.1.2 取series的值values和索引index
obj.values
/* 输出:
array([3, 5, 7, 9], dtype=int64)
*/
obj.index
/* 输出:
RangeIndex(start=0, stop=4, step=1)
*/
2.1.3 生成series用修改index将新的series以修改后的index顺序排序
names = ['Bob','Sherry','Alice']
new_sdata_names = pd.Series(sdata,index=names)
# 输出:
Bob 88 Sherry 93 Alice 80 dtype: