pandas学习笔记
Pandas 是 Python 语言的一个扩展程序库,用于数据分析。
https://www.runoob.com/pandas/pandas-tutorial.html
Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。
Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。
Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。
通常,pandas和numpy结合使用
导入pandas、numpy库
import pandas as pd import numpy as np
目录
-
创建
1.pd.Series()
用于创建序列
s = pd.Series([1,3,6,np.nan,44,1]) print(s)
输出结果:
0 1.0 1 3.0 2 6.0 3 NaN 4 44.0 5 1.0 dtype: float64
2.pd.DataFrame()
DataFrame中可以自定义行、列索引,若没有自己定义,则均默认为0,1....
在这里,想用时间表示行,则需要首先定义一个描述行的索引
用到了pd.date_range()
dates = pd.date_range('20210514',periods = 6) print(dates)
输出结果:
DatetimeIndex(['2021-05-14', '2021-05-15', '2021-05-16', '2021-05-17', '2021-05-18', '2021-05-19'], dtype='datetime64[ns]', freq='D')
接下来可以创建DataFrame
# 这里用numpy.random.randn(6,4)创建一个6行4列的随机矩阵,作为dataframe的values df = pd.DataFrame(np.random.randn(6,4),index = dates, columns = ['a','b','c','d']) print(df)
其中,index代表行索引,column代表列索引
输出结果:
a b c d 2021-05-14 -0.579605 1.578659 -1.135843 1.579486 2021-05-15 -0.146635 -0.434033 0.017211 0.932069 2021-05-16 0.481561 0.588987 -1.134286 0.543638 2021-05-17 -1.207582 0.779603 0.324648 0.564213 2021-05-18 -0.641064 -0.592017 -0.03173