最全最简单的pandas入门教程（精简版）

最新推荐文章于 2023-12-08 17:35:26 发布

LoveMIss-Y

最新推荐文章于 2023-12-08 17:35:26 发布

阅读量997

点赞数

本文链接：https://blog.csdn.net/qq_27825451/article/details/102457179

版权

640?wx_fmt=jpeg

python进阶教程

机器学习

深度学习

长按二维码关注

进入正文

pandas基础教程

一 DataFrame

1.1 创建Series

1.2 创建时间序列

1.3 创建DataFrame

1.4 DataFrame属性

1.5 DataFrame常用操作

二数据选择

2.1 选择列

2.2 选择行

2.3 标签选择：loc

2.4 位置选择：iloc

2.5 混合标签与位置：ix

2.6 Boolean选择

三处理NaN数据

3.1 删除NaN数据

3.2 填充NaN数据

3.3 检查是否存在NaN

四导入与导出

五合并DataFrame

5.1 concat函数

5.2 append函数

5.3 merge函数

六绘图

首先引入相关模块：

import numpy as np
import pandas as pd

DataFrame

第一章 DataFrame

1.1 创建Series

index不指定则从0开始编号

s = pd.Series([1, 2, 3, np.nan], index=['A', 'B', 'C', 'D'])
print s

输出

第一章 DataFrame

1.2 创建时间序列

必须指定start、end、periods中的两个参数值

dates = pd.date_range('20180101', periods=5)
print dates

输出

DatetimeIndex([‘2018-01-01’, ‘2018-01-02’, ‘2018-01-03’, ‘2018-01-04’,

‘2018-01-05’],

dtype=’datetime64[ns]’, freq=’D’)

第一章 DataFrame

1.3 创建DataFrame

必须指定start、end、periods中的两个参数值

df = pd.DataFrame(np.random.rand(3,4),columns=['a', 'b', 'c', 'd'])
print df

输出

a b c d

0 0.233310 0.170256 0.036988 0.697916

1 0.159580 0.287814 0.528123 0.956051

2 0.815038 0.438103 0.143477 0.769143

通过字典创建（key为列名）：

df = pd.DataFrame({'A': 1,
                   'B': pd.Timestamp('20171208'),
                   'C': pd.Series(np.arange(4)),
                   'D': pd.Categorical(['test', 'train', 'test', 'train'])})
print df

输出

A B C D

0 1 2017-12-08 0 test

1 1 2017-12-08 1 train

2 1 2017-12-08 2 test

3 1 2017-12-08 3 train

第一章 DataFrame

1.4 DataFrame属性

df = pd.DataFrame({'A': 1,
                   'B': pd.Timestamp('20171208'),
                   'C': pd.Series(np.arange(4)),
                   'D': pd.Categorical(['test', 'train', 'test', 'train'])})

查看每列数据类型

print df.dtypes

输出

查看索引

print df.index

输出

查看列名

print df.columns

输出

查看数据

print df.values

输出

[[1L Timestamp(‘2017-12-08 00:00:00’) 0 ‘test’]

[1L Timestamp(‘2017-12-08 00:00:00’) 1 ‘train’]

[1L Timestamp(‘2017-12-08 00:00:00’) 2 ‘test’]

[1L Timestamp(‘2017-12-08 00:00:00’) 3 ‘train’]]

DataFrame统计信息

print df.describe()

输出

A C

count 4.0 4.000000

mean 1.0 1.500000

std 0.0 1.290994

min 1.0 0.000000

25% 1.0 0.750000

50% 1.0 1.500000

75% 1.0 2.250000

max 1.0 3.000000

第一章 DataFrame

1.5 DataFrame常用操作

转置

df = pd.DataFrame(np.arange(12).reshape((3,4)),columns=['a', 'b', 'c', 'd'])
print df.T

输出

按index排序

df = pd.DataFrame(np.arange(12).reshape((3, 4)), columns=['a', 'b', 'c', 'd'])
print df.sort_index(axis=1, ascending=False)

输出

按值排序

df = pd.DataFrame(np.arange(12).reshape((3, 4)), columns=['a', 'b', 'c', 'd'])
print df.sort_values(by='b', ascending=False)

输出

数据选择

创建如下dataframe：

dates = pd.date_range('20180101', periods=3)
df = pd.DataFrame(np.arange(12).reshape((3, 4)),
                  index=dates, columns=['a', 'b', 'c', 'd'])
print df

输出

第二章数据选择

2.1 选择列

print df['a']  # print df.a

输出

第二章数据选择

2.2 选择行

print df[0:2]  # print df['20180101':'20180102']

输出

第二章数据选择

2.3 标签选择：loc

print df.loc[:,['a', 'b']]

输出

print df.loc['20180102']

输出

第二章数据选择

2.4 位置选择：iloc

输出

第二章数据选择

2.5 混合标签与位置：ix

输出

第二章数据选择

2.6 Boolean选择

rint df[df.a < 5]

输出

处理NaN数据

首先创建包含NaN的dataframe：

dates = pd.date_range('20180101', periods=3)
df = pd.DataFrame(np.arange(12).reshape((3, 4)),
                  index=dates, columns=['a', 'b', 'c', 'd'])
df.iloc[1, 1], df.iloc[2, 2] = np.nan, np.nan
print df

输出

第三章处理NaN数据

3.1 删除NaN数据

print df.dropna(axis=1)  # how = ['any', 'all']

输出

第三章处理NaN数据

3.2 填充NaN数据

print df.fillna(value='*')

输出

第三章处理NaN数据

3.3 检查是否存在NaN数据

print df.isnull()

输出

a b c d

2018-01-01 False False False False

2018-01-02 False True False False

2018-01-03 False False True False

导入与导出

导入函数	导出函数功能
read_csv	to_csv
read_excel	to_excel
read_sql	to_sql
read_json	to_json
read_msgpack	to_msgpack
read_html	to_html
read_gbq	to_gbq
read_stata	to_stata
read_sas	to_sas
read_clipboard	to_clipboard
read_pickle	to_pickle

以下面这个test.txt为例：

A B

忽略第一行，并设置列名分别为‘name’和‘age’

data = pd.read_csv('test.txt', sep=' ', skiprows=1, names=['name','age'])
print data

输出

合并DataFrame

第五章合并DataFrame

5.1 concat函数

df1 = pd.DataFrame(np.ones((3, 4))*0, columns=['a', 'b', 'c', 'd'])
df2 = pd.DataFrame(np.ones((3, 4))*1, columns=['a', 'b', 'c', 'd'])
df3 = pd.DataFrame(np.ones((3, 4))*2, columns=['a', 'b', 'c', 'd'])
# ignore_index=True将重新对index排序
print pd.concat([df1, df2, df3], axis=0, ignore_index=True)

输出

a b c d

0 0.0 0.0 0.0 0.0

1 0.0 0.0 0.0 0.0

2 0.0 0.0 0.0 0.0

3 1.0 1.0 1.0 1.0

4 1.0 1.0 1.0 1.0

5 1.0 1.0 1.0 1.0

6 2.0 2.0 2.0 2.0

7 2.0 2.0 2.0 2.0

8 2.0 2.0 2.0 2.0

join参数用法

df1 = pd.DataFrame(np.ones((3, 4))*0, columns=['a', 'b', 'c', 'd'], index=[1,2,3])
df2 = pd.DataFrame(np.ones((3, 4))*1, columns=['b', 'c', 'd', 'e'], index=[2,3,4])
# join默认为'outer'，不共有的列用NaN填充
print pd.concat([df1, df2], join='outer') 
# join='inner'只合并共有的列
print pd.concat([df1, df2], join='inner')

输出 1

a b c d e

1 0.0 0.0 0.0 0.0 NaN

2 0.0 0.0 0.0 0.0 NaN

3 0.0 0.0 0.0 0.0 NaN

2 NaN 1.0 1.0 1.0 1.0

3 NaN 1.0 1.0 1.0 1.0

4 NaN 1.0 1.0 1.0 1.0

输出 2

b c d

1 0.0 0.0 0.0

2 0.0 0.0 0.0

3 0.0 0.0 0.0

2 1.0 1.0 1.0

3 1.0 1.0 1.0

4 1.0 1.0 1.0

join_axes参数用法

df1 = pd.DataFrame(np.ones((3, 4))*0, columns=['a', 'b', 'c', 'd'], index=[1, 2, 3])
df2 = pd.DataFrame(np.ones((3, 4))*1, columns=['b', 'c', 'd', 'e'], index=[2, 3, 4])
# 按照df1的index进行合并
print pd.concat([df1, df2], axis=1, join_axes=[df1.index])

输出

a b c d b c d e

1 0.0 0.0 0.0 0.0 NaN NaN NaN NaN

2 0.0 0.0 0.0 0.0 1.0 1.0 1.0 1.0

3 0.0 0.0 0.0 0.0 1.0 1.0 1.0 1.0

第五章合并DataFrame

5.2 append函数

append多个DataFrame

df1 = pd.DataFrame(np.ones((3, 4))*0, columns=['a', 'b', 'c', 'd'])
df2 = pd.DataFrame(np.ones((3, 4))*1, columns=['a', 'b', 'c', 'd'])

print df1.append(df2, ignore_index=True)

输出

a b c d

0 0.0 0.0 0.0 0.0

1 0.0 0.0 0.0 0.0

2 0.0 0.0 0.0 0.0

3 1.0 1.0 1.0 1.0

4 1.0 1.0 1.0 1.0

5 1.0 1.0 1.0 1.0

append一组数据

df1 = pd.DataFrame(np.ones((3, 4))*0, columns=['a', 'b', 'c', 'd'])
s = pd.Series([4, 4, 4, 4], index=['a', 'b', 'c', 'd'])

print df1.append(s, ignore_index=True)

输出

第五章合并DataFrame

5.3 merge函数

基于某一列进行合并

df1 = pd.DataFrame({'A': ['A1', 'A2', 'A3'],
                    'B': ['B1', 'B2', 'B3'],
                   'KEY': ['K1', 'K2', 'K3']})
df2 = pd.DataFrame({'C': ['C1', 'C2', 'C3'],
                    'D': ['D1', 'D2', 'D3'],
                   'KEY': ['K1', 'K2', 'K3']})

print pd.merge(df1, df2, on='KEY')

输出

基于某两列进行合并

df1 = pd.DataFrame({'A': ['A1', 'A2', 'A3'],
                    'B': ['B1', 'B2', 'B3'],
                    'KEY1': ['K1', 'K2', 'K0'],
                    'KEY2': ['K0', 'K1', 'K3']})
df2 = pd.DataFrame({'C': ['C1', 'C2', 'C3'],
                    'D': ['D1', 'D2', 'D3'],
                    'KEY1': ['K0', 'K2', 'K1'],
                    'KEY2': ['K1', 'K1', 'K0']})
# how:['left','right','outer','inner']
print pd.merge(df1, df2, on=['KEY1', 'KEY2'], how='inner')

输出

按index合并

df1 = pd.DataFrame({'A': ['A1', 'A2', 'A3'],
                    'B': ['B1', 'B2', 'B3']},
                   index=['K0', 'K1', 'K2'])
df2 = pd.DataFrame({'C': ['C1', 'C2', 'C3'],
                    'D': ['D1', 'D2', 'D3']},
                   index=['K0', 'K1', 'K3'])

print pd.merge(df1, df2, left_index=True, right_index=True, how='outer')

输出

为列加后缀

df_boys = pd.DataFrame({'id': ['1', '2', '3'],
                        'age': ['23', '25', '18']})
df_girls = pd.DataFrame({'id': ['1', '2', '3'],
                        'age': ['18', '18', '18']})

print pd.merge(df_boys, df_girls, on='id', suffixes=['_boys', '_girls'])

输出

绘图

引入相应模块

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

绘制Series

data = pd.Series(np.random.randn(1000))
data = data.cumsum()

data.plot()
plt.show()

640?wx_fmt=png

2018/12/19

Wednesday

如小伙伴们，pandas是我们学习python、数据挖掘、数据分析、机器学习都离不开的库哦，看完这篇文章，是不是有所收获呢？后面还有系列文章连载，请记得关注哦！如果你有需要，就添加我的公众号哦，里面分享有海量资源，包含各类数据、教程等，后面会有更多面经、资料、数据集等各类干货等着大家哦，重要的是全都是免费、无套路分享，有兴趣的小伙伴请持续关注！

推荐阅读

640?wx_fmt=gif