pandas学习(一)

pandas学习一

import pandas as pd
import numpy as np
#创建一个列表
s=pd.Series([1,3,6,np.nan,44,1])
s
0     1.0
1     3.0
2     6.0
3     NaN
4    44.0
5     1.0
dtype: float64
#日期列表   (起始日期,个数)
date=pd.date_range('20200224',periods=6)
date
DatetimeIndex(['2020-02-24', '2020-02-25', '2020-02-26', '2020-02-27',
               '2020-02-28', '2020-02-29'],
              dtype='datetime64[ns]', freq='D')
#随机生成一个表   6行4列  行用日期索引,列用abcd索引
df=pd.DataFrame(np.random.randn(6,4),index=date,columns=['a','b','c','d'])
df
abcd
2020-02-24-0.6261710.2468240.1654250.148035
2020-02-250.710622-1.679865-0.7776700.968605
2020-02-26-0.858063-0.2613761.132020-0.158369
2020-02-27-0.6121110.081410-0.0346671.355139
2020-02-28-0.631792-0.8914520.4886530.313943
2020-02-29-0.2958010.2463080.2313000.240889
#df的类型
df.dtypes
a    float64
b    float64
c    float64
d    float64
dtype: object
#df的索引
df.index
DatetimeIndex(['2020-02-24', '2020-02-25', '2020-02-26', '2020-02-27',
               '2020-02-28', '2020-02-29'],
              dtype='datetime64[ns]', freq='D')
#df的列索引
df.columns
Index(['a', 'b', 'c', 'd'], dtype='object')
#df的值
df.values
array([[-0.62617077,  0.24682398,  0.16542528,  0.14803493],
       [ 0.71062227, -1.67986545, -0.77766962,  0.96860532],
       [-0.85806291, -0.26137552,  1.13201976, -0.15836874],
       [-0.61211132,  0.0814105 , -0.03466684,  1.35513929],
       [-0.63179158, -0.89145187,  0.48865349,  0.31394313],
       [-0.29580124,  0.24630751,  0.23130023,  0.24088918]])
#计算方差,平均值等各种数据
df.describe()
abcd
count6.0000006.0000006.0000006.000000
mean-0.385553-0.3763580.2008440.478041
std0.5661770.7698430.6269070.566929
min-0.858063-1.679865-0.777670-0.158369
25%-0.630386-0.7339330.0153560.171248
50%-0.619141-0.0899830.1983630.277416
75%-0.3748790.2050830.4243150.804940
max0.7106220.2468241.1320201.355139
#转置一下再计算
df.T.describe()
2020-02-24 00:00:002020-02-25 00:00:002020-02-26 00:00:002020-02-27 00:00:002020-02-28 00:00:002020-02-29 00:00:00
count4.0000004.0000004.0000004.0000004.0000004.000000
mean-0.016472-0.194577-0.0364470.197443-0.1801620.105674
std0.4087411.2541210.8378200.8292520.6834610.267722
min-0.626171-1.679865-0.858063-0.612111-0.891452-0.295801
25%-0.045516-1.003219-0.410547-0.179028-0.6967070.099525
50%0.156730-0.033524-0.2098720.023372-0.1589240.236095
75%0.1857750.7751180.1642280.3998430.3576210.242244
max0.2468240.9686051.1320201.3551390.4886530.246308
#按索引排序 axis=1对行排序,=0对列排序,ascending=False是逆序
df.sort_index(axis=1,ascending=False)
dcba
2020-02-240.1480350.1654250.246824-0.626171
2020-02-250.968605-0.777670-1.6798650.710622
2020-02-26-0.1583691.132020-0.261376-0.858063
2020-02-271.355139-0.0346670.081410-0.612111
2020-02-280.3139430.488653-0.891452-0.631792
2020-02-290.2408890.2313000.246308-0.295801
#按值排序   by=列名
df.sort_values(by='d')
abcd
2020-02-26-0.858063-0.2613761.132020-0.158369
2020-02-24-0.6261710.2468240.1654250.148035
2020-02-29-0.2958010.2463080.2313000.240889
2020-02-28-0.631792-0.8914520.4886530.313943
2020-02-250.710622-1.679865-0.7776700.968605
2020-02-27-0.6121110.081410-0.0346671.355139
当你开始学习pandas时,以下是一个简单的学习路线: 1. 学习Python基础知识:在使用pandas之前,建议先掌握Python的基本语法和数据结构,例如列表、字典和函数等。 2. 安装pandas库:使用pip或conda等工具安装pandas库,并确保安装正确。 3. 学习pandas的数据结构:pandas主要提供了两种数据结构,即Series和DataFrame。了解它们的特点、创建方式和基本操作方法。 4. 数据导入与导出:学习如何从不同的数据源(如CSV、Excel、数据库等)中导入数据到pandas的DataFrame中,并将处理后的数据导出。 5. 数据清洗与预处理:学习如何处理缺失值、重复值、异常值等数据清洗操作,并进行数据类型转换、重命名列名等预处理操作。 6. 数据选择与过滤:学习如何使用pandas提供的方法选择和过滤DataFrame中的数据,包括使用标签、位置、条件等进行选择。 7. 数据排序与排名:学习如何对DataFrame中的数据进行排序和排名操作,以便更好地理解和分析数据。 8. 数据聚合与分组:学习如何使用pandas进行数据聚合和分组操作,包括使用聚合函数、分组键等进行数据分析。 9. 数据合并与连接:学习如何使用pandas进行多个DataFrame的合并和连接操作,以便进行更复杂的数据分析和处理。 10. 数据可视化:学习如何使用pandas结合matplotlib或其他可视化库进行数据可视化,以便更直观地展示和分析数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值