pandas
是一套用于 Python 的快速、高效的数据分析工具。它提供了数组的操作,定义了处理数据的基本结构,并且赋予了它们促进操作的方法,例如:读取数据、调整索引、使用日期和时间序列、排序、分组、一般数据调整、处理缺失值等等。
导入数据包
import pandas as pd
import numpy as np
可通过pip
下载pandas
:
$ pip install pandas
Series
由 pandas
定义的两种数据类型是 Series
和 DataFrame
,Series
类似一个 column,DataFrame
是多个 Series
的集合。
1. 定义一个Series
series = pd.Series(np.random.randn(5), name="MySeries")
# 输出
0 -0.816891
1 1.773783
2 0.443106
3 -1.240539
4 0.667308
Name: MySeries, dtype: float64
注:np.random.randn()函数随机返回一个或一组样本,具有标准正态分布
2.Series乘以10
series*10
# 输出
0 -8.168907
1 17.737830
2 4.431061
3 -12.405386
4 6.673081
Name: MySeries, dtype: float64
3.Series取绝对值
np.abs(series)
# 输出
0 0.816891
1 1.773783
2 0.443106
3 1.240539
4 0.667308
Name: MySeries, dtype: float64
4.对Series做描述性统计
series.describe()
# 输出
count 5.000000
mean 0.165354
std 1.210112
min -1.240539
25% -0.816891
50% 0.443106
75% 0.667308
max 1.773783
Name: MySeries, dtype: float64
5.对Series自定义索引的值
series.index = ['上', '山', '打', '老', '虎']
# 输出
上 -0.816891
山 1.773783
打 0.443106
老 -1.240539
虎 0.667308
Name: MySeries, dtype: float64
6.对Series做查询(类似字典)
series['虎']
# 输出
0.6673080932767917
7.将索引为Python的值改为2
series['虎'] = 1
# 输出
上 -0.816891
山 1.773783
打 0.443106
老 -1.240539
虎 1.000000
Name: MySeries, dtype: float64
8.判断索引J是否存在
'虎' in series
# 输出
True
参考:https://mp.weixin.qq.com/s/b-rHS18WQoPJ78NbKaSaXQ