- DataFrame简介
Pandas DataFrame是一个二维标记数据结构,其列可能具有不同类型。DataFrame的单元格可以存放数值、字符串等,这和excel表很像。 - 创建DataFrame
(1)可以直接使用pandas的DataFrame函数创建,这里随机创建一个4*4的DataFrame,操作如下:
import pandas as pd
import numpy as np
my_list = [[1,2,3,4],
[5,6,7,8],
[9,10,11,12],
[13,14,15,16],
[17,18,19,20]]
df = pd.DataFrame(
my_list,
index = ["1->", "2->", "3->", "4->", "5->"],
columns = ["A", "B", "C", "D"]
)
print(df)
其中第一个参数是存放DataFrame里的数据,第二个参数Index是行名(行索引),第三个参数columns是列名(列索引)。
(2)使用字典创建
字典的每个key的value代表一列,而key是这一列的列名,操作如下:
import pandas as pd
my_dict = {
'name' : ["a", "b", "c", "d", "e","f", "g"],
'age' : [20,27, 35, 55, 18, 21, 35],
'designation': ["VP", "CEO", "CFO", "VP", "VP", "CEO", "MD"]
}
df = pd.DataFrame(my_dict)
print(df)
-
查看与筛选数据
(1)使用df.dtypes的方法可以查看各列的数据类型
(2)查看DataFrame的头尾
使用head可以查看前几行的数据,默认是前5行,也可以自己设置。比如只看前3行,df.head(3)。
使用tail可以查看后几行的数据,默认是后5行,也可以自己设置。比如只看后2行df.tail(2)。
(3)使用values可以查看DataFrame里的数据值,返回的是一个数组。比如查看所有的数据值df.values。查看某一列的所有的数据值,df[‘name’].values。使用loc或者iloc查看某一行的所有的数据值。区别是loc根据行名,loc是根据行号。
比如df.loc[’->’],df.iloc[0]。
(4)查看行数df.shape[0],查看列数df.shape[1] -
基本操作
(1)转置:df.T
(2)运算:使用sum对每列求和,比如df.sum。使用sum(1)对每行求和,比如df.sum(1)。
(3)添加列,扩充列可以直接像字典一样,列名对应一个list,但是注意list的长度要跟index的长度一致。
df['E']=[88,88,88,88,88]
还可以使用insert,使用这个方法可以指定把列插入到第几列,其他的列顺延。
df.insert(0,'F',[88,88,88,88,88])