DataFrame数据是Python数据分析最常用的数据,DataFrame是表格型数据,数据处理思路是如何将数据转换为DataFrame对象
字典创建DataFrame对象
data = {‘name’:[‘张三’,‘李四’,‘王五’,‘赵六’],‘sex’:[‘male’,‘female’,‘male’,‘female’],‘age’:[19, 20, 21, 22],‘city’:[‘北京’,‘上海’,‘成都’,‘杭州’]}df = DataFrame(data)
df对象的数据格式为
- 对于DataFrame,需要通过传入数组、列表或元组组成的字典
- DataFrame结构有行索引和列索引
- DataFrame创建时,会根据字典的键名对列重排
指定列的排列顺序
# 接上述代码df = DataFrame(data,columns = [‘name’,‘sex’,‘age’,‘city’])
- 列排列按照指定的顺序
输入的columns列表中的元素不在字典键名列表中
df = DataFrame(data,columns = [‘name’‘sex’,‘a’,‘city’])
- 不存在的列自行填充NaN值列
指定行索引
df = DataFrame(data,index = [‘a’,‘b’,‘c’,‘d’])
- 没有指定行索引时,默认使用0到N-1(N为行数)的行序号
- 也可同时指定行和列索引
Series创建DataFrame
将Series合并成列表
S1 = Series([1, 2, 3, 4], index = [‘a’, ‘b’, ‘c’, ‘d’])S1 = Series([5, 6, 7, 8], index = [‘a’, ‘b’, ‘c’, ‘d’])data = [S1, S2] #series合并成列表df = DataFrame(data)
将Series合并成字典
dictVar = { # series合并成字典 ‘S1’:S1,‘S2’:S2}df = DataFrame(dictVar)