学习机器学习的那些事儿_Day1_Pandas十分钟入门-CSDN博客

本文链接：https://blog.csdn.net/weixin_39464526/article/details/106884302

学习机器学习的那些事儿_Day1_Pandas十分钟入门

生成对象
查看数据
获取行/列
基础运算

import numpy as np
import pandas as pd

生成对象

用值列表生成Series时，Pandas默认自动生成整数索引：

s = pd.Series([1,3,5,np.nan,6,8])
s

用含有日期时间索引与标签的Numpy数组生成DataFrame

dates = pd.date_range('20130101',periods=6)

df = pd.DataFrame(np.random.randn(6,4),index=dates,colums=list('ABCD'))
df

用Series字典对象生成DateFrame

df2 = pd.DataFrame({'A':1.,
					'B':pd.Timestamp('20200101'),
					'C':pd.Series})

查看数据

如何查看 DataFrame 头部和尾部数据：

df.head()

df.tail(3)

显示索引与列名：

df.index

df.columns

DataFrame.to_numpy() 输出底层数据的 NumPy 对象。 DataFrame 的列由多种数据类型组成时，该操作耗费系统资源较大，这也是 Pandas 和 NumPy 的本质区别：NumPy 数组只有一种数据类型，DataFrame 每列的数据类型各不相同。调用 DataFrame.to_numpy() 时，Pandas 查找支持 DataFrame 里所有数据类型的 NumPy 数据类型。还有一种数据类型是 object，可以把 DataFrame 列里的值强制转换为 Python 对象。

df.to_numpy()

获取行/列

从 DataFrame 选择一个列，就得到了 Series

df['A']

基础运算

统计

一般情况下，运算时排除缺失值。

In [61]: df.mean()
Out[61]: 
A   -0.004474
B   -0.383981
C   -0.687758
D    5.000000
F    3.000000
dtype: float64

在另一个轴(即，行)上执行同样的操作：

In [62]: df.mean(1)
Out[62]: 
2013-01-01    0.872735
2013-01-02    1.431621
2013-01-03    0.707731
2013-01-04    1.395042
2013-01-05    1.883656
2013-01-06    1.592306
Freq: D, dtype: float64

不同维度对象运算时，要先对齐。此外，Pandas 自动沿指定维度广播。

In [63]: s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)

In [64]: s
Out[64]: 
2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

In [65]: df.sub(s, axis='index')
Out[65]: 
                   A         B         C    D    F
2013-01-01       NaN       NaN       NaN  NaN  NaN
2013-01-02       NaN       NaN       NaN  NaN  NaN
2013-01-03 -1.861849 -3.104569 -1.494929  4.0  1.0
2013-01-04 -2.278445 -3.706771 -4.039575  2.0  0.0
2013-01-05 -5.424972 -4.432980 -4.723768  0.0 -1.0
2013-01-06       NaN       NaN       NaN  NaN  NaN

Apply 函数

Apply 函数处理数据：

In [66]: df.apply(np.cumsum)
Out[66]: 
                   A         B         C   D     F
2013-01-01  0.000000  0.000000 -1.509059   5   NaN
2013-01-02  1.212112 -0.173215 -1.389850  10   1.0
2013-01-03  0.350263 -2.277784 -1.884779  15   3.0
2013-01-04  1.071818 -2.984555 -2.924354  20   6.0
2013-01-05  0.646846 -2.417535 -2.648122  25  10.0
2013-01-06 -0.026844 -2.303886 -4.126549  30  15.0

In [67]: df.apply(lambda x: x.max() - x.min())
Out[67]: 
A    2.073961
B    2.671590
C    1.785291
D    0.000000
F    4.000000
dtype: float64

直方图

n [68]: s = pd.Series(np.random.randint(0, 7, size=10))

In [69]: s
Out[69]: 
0    4
1    2
2    1
3    2
4    6
5    4
6    4
7    6
8    4
9    4
dtype: int64

In [70]: s.value_counts()
Out[70]: 
4    5
6    2
2    2
1    1
dtype: int64