DataFrame
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
DataFrame的创建
最常用的方法是传递一个字典来创建。
DataFrame以字典的键作为每一【列】的名称,以字典的值(一个数组)作为每一列。
此外,DataFrame会自动加上每一行的索引(和Series一样)。
同Series一样,若传入的列与字典的键不匹配,则相应的值为NaN。
df1 = DataFrame(data = {"Python":[99,101,120,78],
"数学":[120,136,141,149],
"汉语":[123,114,130,117]},
index = list("abcd"))
df1
DataFrame属性
df.values
df.columns
df.index
df.shape
DataFrame的索引
通过类似字典的方式
通过属性的方式
可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引,且name属性也已经设置好了,就是相应的列名。
使用.ix[]来进行行索引
使用.loc[]加index来进行行索引
使用.iloc[]加整数来进行行索引
对列进行索引
df2["Python"]
#Series
df2.Python
#这个很少用
df2[["Python","Java"]]
#DataFrame
对行进行索引
df2.loc["a"]
df2.loc[["a"]]
df2.iloc[0]
df2.iloc[[0,1]]
df2.loc["a":"b"]
#左闭右闭
df2.iloc[0:3]
#左闭右开
总结:
在进行列索引的时候 可以使用中括号 但是在进行行索引的时候, 不能使用中括号, 使用loc或者iloc
切片的时候, loc 左闭右闭, iloc 左闭右开
对元素索引的方法
使用列索引
使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)
使用values属性(二维numpy数组)
df["Java"]["b"]
df["Java"]["a":"c"]
df['Java'].iloc[0:2]
【注意】 直接用中括号时:
索引表示的是列索引
切片表示的是行切片
DataFrame的运算
DataFrame之间的运算
df1 + df2
df1.add(df2,fill_value=0)
Python 操作符与pandas操作函数的对应表:
Python Operator Pandas Method(s)
+ add()
- sub(), subtract()
* mul(), multiply()
/ truediv(), div(), divide()
// floordiv()
% mod()
** pow()
Series与DataFrame之间的运算
【重要】
-
使用Python操作符:以行为单位操作(参数必须是行),对所有行都有效。(类似于numpy中二维数组与一维数组的运算,但可能出现NaN)
-
使用pandas操作函数:
axis=0:以列为单位操作(参数必须是列),对所有列都有效。
axis=1:以行为单位操作(参数必须是行),对所有行都有效。
#行数据
s_row = df2.loc[“c”]
s_row
#列的数据
s_column = df2[“Python”]
s_column
df2.add(s_column, axis = “index”)
df2.add(s_row)
#总结:DataFrame 和Series 进行运算的时候, 一定要严格的注意 axis 轴 对齐操作