- Pandas基于series和dataframe两种类型,series是一维的,dataframe是二维的。
- 读取数据,如从csv中,df = read_csv(‘d:/a.csv’,head=0)
- df.head(5) 查询前几个
- df.tail(5) 查询后几个
- df.columns #print(df.columns)可以看到列名
- df.x 或者 df[‘x’] 都可以选中某一列
- df[(df.x < 1000) & (df.y>1000)] //按条件过滤
值得注意的是,由于操作符优先级的问题,在这里你不可以使用关键字‘and’,而只能使用’&’与括号 - Matplotlib很适合画图,不过pandas本身也可以用plot函数进行画图
df.plot(x=‘x’,y=[‘y,z’]) #参数x为横坐标,值为df的列名字,y为纵坐标,值可以为一个列表;x不能是列表 - df.to_csv(‘a.csv’) #导出
df.to_csv(‘a.xlsx’) - 按值排序 data.sort_values(by=‘date’,ascending=False)
- 查询简单的数据分析信息
data.describe()
Out[40]:
open close high low volume
count 54.000000 54.000000 54.000000 54.000000 5.400000e+01
mean 1557.014130 1608.434019 1743.852907 1444.099815 2.419422e+07
std 761.942843 808.612772 872.240083 707.223564 2.059523e+07
min 628.726000 633.439000 718.275000 614.587000 4.801826e+06
25% 923.026750 916.806500 995.207750 872.441750 1.263886e+07
50% 1363.731500 1378.323500 1489.636500 1236.116000 1.548160e+07
75% 2207.428000 2212.247500 2399.145000 2123.350250 2.720723e+07
max 3377.761000 3457.498000 3746.546000 3105.325000 8.827346e+07
Pandas最简单使用
最新推荐文章于 2022-03-28 16:53:13 发布