5.4 数据操作

最新推荐文章于 2022-11-06 22:32:18 发布

高通量

最新推荐文章于 2022-11-06 22:32:18 发布

阅读量536

点赞数

本文链接：https://blog.csdn.net/howhigh/article/details/73928605

版权

数据操作主要包括，数据存取、数据切片及数据运算三部分。

5.4.1 数据存取

Pandas支持如下数据文件的读取存取，方便快捷的数据操作是Pandas库的一大优势。各种数据文件格式及对应的存取函数，如下表所示：

文件格式名	读取函数	写入函数
Python字典数据	pd.DataFrame(dict)	df.to_dict()
Excel文档	pd.read_excel(filename)	df.to_excel(filename)
CSV文档	pd.read_csv(filename)	df.to_csv(filename)
分隔的文本文件（如TSV）	pd.read_table(filename)
SQL数据库文件	pd.read_sql(query,connection_object)	df.to_sql(table_name,connection_object)
JSON格式的字符串、URL或文件	pd.read_json(json_string)	pd.to_json(filename)

直接创建DataFrame对象

上一节创建的DataFrame对象，已引入了字典序列的值导入数据的方法，示例代码如下：

import pandas as pd
d={'one':pd.Series([1, 2, 3], index=['a', 'b', 'c']), 'two':pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
df.index.name="index"
print(df)

运行结果：

       one  two
index          
a      1.0    1
b      2.0    2
c      3.0    3
d      NaN    4

可以看到，d是一个字典，其中one的值为Series有3个值，而two为Series有4个值。由d构建的为一个4行2列的DataFrame，并且将索引命名为index，其中one只有3个值，因此d行one列为NaN，即Not a Number，这是Pandas默认的缺失标记。
DataFrame也可以转换回字典类型，示例代码：

df.to_dict()

运行结果：

{'one': {'a': 1.0, 'b': 2.0, 'c': 3.0, 'd': nan},
 'two': {'a': 1, 'b': 2, 'c': 3, 'd': 4}}

从Excel中存取数据

以上通过指令直接创建DataFrame，日常中大部分是从文件数据库中导入数据创建DataFrame。首先从Excel文件中读入DataFrame，示例代码：

df2 = pd.read_excel("abc.xls")
df2.head()

运行结果：

```
abc.xls是文件的相对路径名称，也可以采用绝对路径的方式，其参数为"d:/ml/abc.xls"。除了可以从Excel读取文件，我们也可以将DataFrame写入到Excel文件中，示例代码：
```python
df2.to_excel("foo1.xlsx", sheet_name='sheet1')

以上代码中，参数sheet_name的值确定了将DataFrame表格数据导入在foo1.xlsx文件的sheet1表中，其foo1.xlsx文件放置在与iPython脚本编辑文件同一个目录中，如图所示：

foo1.xlsx文件路径

从CSV中存取数据

CSV文件就是用逗号分隔的数据文件，其导入函数为read_csv()，括号内参数为CSV文件名，此时CSV文件与iPython脚本文件处于同一路径；参数也可以采用绝对路径的方式导入CSV文件，示例代码：

df3 = pd.read_csv("d:\ml\titanic_train.csv")
print(df3.head())

运行结果：

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S

titanic_train.csv文件放置在D盘ml文件夹中，所以采用绝对路径方式读取数据，参数即"d:/ml/titanic_train.csv"。由于数据列名较多，所以采用多块显示的方式，将前5行数据以不同属性分块展现。
也可以将DataFrame对象写入CSV文件中，示例代码：

df3.to_csv("d:/ml/foo2.csv")

读取SQL数据库

pd.read_sql(query,connection_object)函数通过SQL查询语句读取数据库中的表格数据，其中第一个参数query是SQL查询语句，而第二个参数connection_object是python语言与相关数据库的连接资源接口文件。示例代码：

from sqlalchemy import create_engine
engine = create_engine("sqlite:///:memory:")
df4 = pd.read_sql("SELECT * FROM my_table", engine)

也可以将创建的df4对象导入到SQL数据库文件中，示例代码：

pd.to_sql("df4", engine)

以上介绍了几个常用数据文件的导入方法，其他函数与之类似，可以通过help()函数获取详细的数据文件存取方法，这里不再赘述。

5.4.2 数据切片

指定列

刚才通过导入数据文件或Python字典序列创建了DataFrame对象，下面我们将操作DataFrame对象中的数据，即介绍数据的切片与筛选命令。首先选择其中的一列，示例代码：

df["one"]

运行结果：

index
a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

显示的结果相当于一个Series，保留其索引号a、b、c、d，以及显示one列的所有值。我们也可以使用df.one的命令得到相同的结果。示例代码：

df.one

运行结果

index
a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

此外，可以通过list列表参数，返回多个属性列的值，示例代码：

df[["one", "two"]]

运行结果：

       one  two
index          
a      1.0    1
b      2.0    2
c      3.0    3
d      NaN    4

由于原DataFrame仅有两列元素数据，因此返回的结果与原DataFrame对象相同。

指定行

如果要指定DataFrame对象的前三行记录，可以用切片命令，示例代码：

print(df[0:3])

运行结果：

       one  two
index          
a      1.0    1
b      2.0    2
c      3.0    3

此结果返回的依旧是一个DataFrame对象，即以多个属性列表格。我们也可以使用起始索引名称和结束索引名称进行切片操作，注意其结果包含结束索引的数据，示例代码：

print(df['a' : 'b'])

运行结果：

       one  two
index          
a      1.0    1
b      2.0    2

loc方法

通过DataFrame的loc方法（location的缩写）通过标签进行切片，即指定行列标签选取数据，操作格式为df.iloc[行标签, 列标签]，示例代码：

df.loc['a':'c',"one"]

运行结果：

index
a    1.0
b    2.0
c    3.0
Name: one, dtype: float64

其中，df.loc的第一个参数为行标签（必须是指定的索引号，不能是数字），第二个参数为列标签（可选参数，默认为所有列标签）。两个参数既可以是列表也可以是单个字符，如果两个参数都为列表则返回是DataFrame，否则为Series。

iloc方法

我们也可以通过DataFrame的iloc方法通过位置选取数据，功能与loc类似，需要注意的是iloc是integer & location的缩写，即只能以数字为索引号进行切片操作，操作格式为df.iloc[行位置, 列位置]，示例代码：

print(df.iloc[1,1])      #选取第二行、第二列的值，返回的为单个值
print("----------------------")
print(df.iloc[[0,2], :])     #选取第一行及第三行的数据
print("----------------------")
print(df.iloc[0:2, :])      #选取第一行到第三行（不包含）的数据
print("----------------------")
print(df.iloc[:, 1])     #选取所有记录的第一列的值，返回的为一个Series
print("----------------------")
print(df.iloc[1, :])      #选取第一行数据，返回的为一个Series

运行结果：

2.0
----------------------
       one  two
index          
a      1.0    1
c      3.0    3
----------------------
       one  two
index          
a      1.0    1
b      2.0    2
----------------------
index
a    1
b    2
c    3
d    4
Name: two, dtype: int64
----------------------
one    2.0
two    2.0
Name: b, dtype: float64

ix方法

除了loc和iloc，更广义的切片方式是使用ix，它根据给定的索引类型自行判断是使用位置还是标签进行切片。操作格式为df.iloc[行位置（或行标签）, 列位置（或列标签）]，示例代码：

print(df.ix[1, 1])
print("----------------------")
print(df.ix['a':'b', 0])

运行结果：

2.0
----------------------
index
a    1.0
b    2.0
Name: one, dtype: float64

逻辑切片

通过逻辑指针进行数据切片，操作格式为df[逻辑条件]，示例代码：

print(df[df.one >= 2])        #单个逻辑条件
print("----------------------")
print(df[df['one']>=2])       #结果与上面命令等价
print("----------------------")
print(df[(df.one >= 1) & (df.one < 3)])      #多个逻辑条件

运行结果：

       one  two
index          
b      2.0    2
c      3.0    3
----------------------
       one  two
index          
b      2.0    2
c      3.0    3
----------------------
       one  two
index          
a      1.0    1
b      2.0    2

此外可以添加列标签参数，对逻辑条件指定的结果进行列选择，示例代码：

print(df[df.one>2]['two'])

运行结果：

index
b    2
c    3
Name: two, dtype: int64

5.4.3 数据运算

基本运算符运算

DataFrame对象可以对若干列值进行基本运算，其运算方式是每一行记录之间的列值的基本运算操作，可以将结果返回生成新的列值，示例代码：

df["three"] = df["one"]*10 + df["two"]        #将one列的所有值乘以10倍后与同行的two列的所有值进行相加运算
df.head()

运行结果：

       one  two  three
index                 
a      1.0    1   11.0
b      2.0    2   22.0
c      3.0    3   33.0
d      NaN    4    NaN

由结果可以看出NaN值对四则运算规则没有意义，其结果依旧是NaN。

数值运算函数

Series和DataFrame对象都支持NumPy的数组接口，因此可以直接使用NumPy提供的ufunc函数对它们进行运算。例如add()、sub()、mul()、div()、mod()等与二元运算符对应的函数。此外，这些函数可以通过axis、level和fill_value等参数控制其运算行为。为演示运算函数中遇到的特殊情况处理，我们首先创建一个DataFrame和两个Series对象，示例代码：

df = pd.DataFrame(np.random.randint(0,10,(5,4)),index=['a','b','c','d','e'])
s1 = pd.Series(np.random.randint(0,10,5),index=['a','b','c','d','e'])
s2 = pd.Series([7,-2,3,5],index=['a','c','d','e'])
print(df)
print('\n')
print(s1)
print('\n')
print(s2)

运行结果：

   0  1  2  3
a  5  5  7  0
b  7  9  5  5
c  0  6  2  4
d  0  0  6  5
e  1  5  5  4


a    4
b    8
c    4
d    9
e    2
dtype: int32


a    7
c   -2
d    3
e    5
dtype: int64

由结果可知，创建一个5行4列的DataFrame，其中相应的行标索引号分别为字母abcde，而针对Series对象，分别创建了行标索引为abcde的s1序列和行标索引为acde的s2序列。我们可以直接采用两序列相加的方式，并将结果赋值于新的序列s3，示例代码：

s3=s1+s2
print(s3)

运行结果：

a     8.0
b     NaN
c     6.0
d    10.0
e    10.0
dtype: float64

由于s2序列中没有b行索引下标，所以运算结果s3的b行记录用NaN补全。而通过运算函数里fill_value参数值的设置，我们可以对缺失值进行自动补全，示例代码：

print(s1.add(s3, fill_value=0))      #加，将缺失值设置为0
print("\n")
print(s1.sub(s3,fill_value=2))       #减，将缺失值设置为2
print("\n")
print(s1.mul(s3,fill_value=3))        #乘，将缺失值设置为3
print("\n")
print(s1.div(s3,fill_value=4))         #除，将缺失值设置为4

运行结果：

a     9.0
b     5.0
c    14.0
d    17.0
e    15.0
dtype: float64


a   -7.0
b    3.0
c    2.0
d   -3.0
e   -5.0
dtype: float64


a     8.0
b    15.0
c    48.0
d    70.0
e    50.0
dtype: float64


a    0.125000
b    1.250000
c    1.333333
d    0.700000
e    0.500000
dtype: float64

数值统计函数

Pandas提供各种统计运算方法，如sum()、cumsum()、max()、min()、idxmin()、idxmax()、describe()、mean()、median()、std()等，这些函数都有如下三个常用参数：

axis：指定运算对应的轴
level：指定运算对应的索引级别

skipna：运算是否自动跳过NaN
示例代码：

data = {'Country' : ['Belgium', 'India', 'Brazil'], 'Capital' : ['Brussels', 'New Delhi', 'Brasilia'], 'Population' : [11190846, 1303171035, 207847528] }
df = pd.DataFrame(data, columns = ['Country', 'Capital', 'Population'])      #生成名为df的DataFrame对象
print("sum:",df.sum())      #对每列值求和
print("\n")              
print("cumsum:",df.cumsum())      #返回每列值对行进行的累加和
print("\n")
print("min:",df.min())      #返回每列最小值
print("\n")
print("max:",df.max())      #返回每列最大值
print("\n")
print("describe:",df.describe())      #获取数据集的常用统计量信息
print("\n")
print("mean:",df.mean())      #返回每列均值
print("\n")
print("median:",df.median())      #返回每列中位数值
print("\n")
print("standard:",df.std())      #返回每列标准差值

运行结果
```python
sum: Country BelgiumIndiaBrazil
Capital BrusselsNew DelhiBrasilia
Population 1522209409
dtype: object

cumsum: Country Capital Population
0 Belgium Brussels 11190846
1 BelgiumIndia BrusselsNew Delhi 1314361881
2 BelgiumIndiaBrazil BrusselsNew DelhiBrasilia 1522209409

min: Country Belgium
Capital Brasilia
Population 11190846
dtype: object

max: Country India
Capital New Delhi
Population 1303171035
dtype: object

describe: Population
count 3.000000e+00
mean 5.074031e+08
std 6.961346e+08
min 1.119085e+07
25% 1.095192e+08
50% 2.078475e+08
75% 7.555093e+08
max 1.303171e+09

mean: Population 5.074031e+08
dtype: float64

median: Population 207847528.0
dtype: float64

standard: Population 6.961346e+08
dtype: float64

注意，在以上返回结果中，describe()、mean()、median()和std()函数，仅对数值类型数据有效。此外，可以添加参数分别针对行列值进行数值统计，示例代码：
```python
df = pd.DataFrame(np.random.randint(0,10,(5,4)),index=['a','b','c','d','e'])
print(df.mean())
print('\n')
print(df.mean(0))
print('\n')
print(df.mean(1))

运行结果：

0    5.2
1    5.4
2    4.8
3    5.4
dtype: float64


0    5.2
1    5.4
2    4.8
3    5.4
dtype: float64


a    6.00
b    4.75
c    4.75
d    6.00
e    4.50
dtype: float64

以上结果，不带参数或参数为0均返回的是每列的均值，而参数为1返回每行均值。由此说明mean()函数的默认参数就是0，即对每列进行均值统计分析，而当参数为1时则针对每行进行均值统计分析。此种参数的设置，对其他统计函数依然有效。

排序操作

DataFrame提供多种排序方式，主要介绍sort_index()、sort_values()和sort()方法。示例代码：

df = pd.DataFrame(np.random.randint(0,10,(5,4)),columns=['a','b','c','d'])
print(df)
print('\n')
print(df.sort_index(axis=1,ascending=False))
print('\n')
print(df.sort_values(by='a',ascending=True))

运行结果

   a  b  c  d
0  4  2  8  6
1  8  2  3  2
2  1  8  6  7
3  8  6  9  6
4  3  3  5  4


   d  c  b  a
0  6  8  2  4
1  2  3  2  8
2  7  6  8  1
3  6  9  6  8
4  4  5  3  3


   a  b  c  d
2  1  8  6  7
4  3  3  5  4
0  4  2  8  6
1  8  2  3  2
3  8  6  9  6

sort_index()方法以轴的标签进行排序。axis是指用于排序的轴，可选的值有0和1，默认为0即行标签（Y轴），1为按照列标签排序。ascending是排序方式，默认为True即升序排列。sort_values()方法，顾名思义，是按照数据值进行排序，在上例中的参数by即按照a列的值进行升序排列。
sort()方法与sort_values()方法类似，根据需要按照指定列进行排序，可以仅指定一个列作为排序标准（以单独列名作为columns的参数），也可以进行多重排序（columns的参数为一个列名的List，列名的出现顺序决定排序中的优先级），在多重排序中ascending参数也为一个List，分别于columns中的List元素对应。示例代码：

print(df.sort(columns='b', ascending=False))      #按照b列的降序排列
print('\n')
print(df.sort(columns=['a','c'], ascending=[False,True]))      #首先按照a列的降序，然后按照c列的升序排列
print('\n')
print(df.sort(columns=['a','c'], ascending=[0,1]))      #False可以用0，True可以用1替换

运行结果

   a  b  c  d
2  1  8  6  7
3  8  6  9  6
4  3  3  5  4
0  4  2  8  6
1  8  2  3  2


   a  b  c  d
1  8  2  3  2
3  8  6  9  6
0  4  2  8  6
4  3  3  5  4
2  1  8  6  7


   a  b  c  d
1  8  2  3  2
3  8  6  9  6
0  4  2  8  6
4  3  3  5  4
2  1  8  6  7

字符操作

Pandas除了可以对数值数据进行操作，也提供了字符串操作方法str，示例代码：

data = {'Country' : ['Belgium', 'India', 'Brazil'], 'Capital' : ['Brussels', 'New Delhi', 'Brasilia'], 'Population' : [11190846, 1303171035, 207847528] }
df = pd.DataFrame(data, columns = ['Country', 'Capital', 'Population'])   
df.['Country'].str.upper()      #将字符转换为大写
df.['Country'].str.len()          #求字符长度
df.['Country'].str.coutains('a')      #coutains参数可以是字符或字符串，即判断字符串是否包含参数中的字符

字符的操作方法还有很多，可以查阅相关文档，这里不做赘述。