Pandas 数据分析与处理入门1

Pandas首先明确:它是二维带标签数组;且引入了索引,可以通过索引来处理数据,而numpy则需要用维度来操作数据。

1.首先创建

一个pandas类型的结构体,一般有两种,series类和dataframe类,前者是用于一维数据

se = pd.Series([],index = ) ###index默认是从0开始的序列
#也可用narray类作为数据创建:
se = pd.Series(np.arange(),index = )
#用range()或者表示可迭代的数据类型list()都可以
se = pd.Series(list('abc'),index = )

用的最多的是dataframe二维数据类型

dl = {'one':pd.Series(np.arange(4),index = ['a','b','c','D']),
      'two':pd.Series(np.arange(9,5,-1),index = ['a','b','c','D'])}
dt= pd.DataFrame(dl,index = ['b','c','D'],columns = ['two','three'])
      #除了上面的行列索引来创建二维数组,还有ndarray型
dt1 = pd.DataFrame(np.arange(8).reshape(2,4))

2.根据二维数组的索引操作数据

newc = dt.columns.insert(0~n,'新增名称’)
newi = dt.index.delete(0~n)
dt = dt.reindex(colunms = newc,newi = newi,fill_value = ,method = )
#关于重新建立索引的reindex 可以参考:
https://pandas.pydata.org/pandas-docs/version/0.17.0/generated/pandas.DataFrame.reindex.html

若需要直接删除某一行:

dt = dt.drop('名称‘,axis = )# drop默认是删除行的索引,设axis = 1,则删除列的索引

3.数据类型的算术运算

高维数据和低维数据进行运算时,遵循“广播原则“。具体来说:二维和一维数据与标量运算时,标量与各个数组每一位数据进行运算; 二维数据和一维数据进行运算时,根据维度将一维数据与二维数据进行相应位置的数据的运算,如

import pandas as pd
import numpy as np

dt1 = pd.DataFrame(np.arange(8).reshape(2,4))
dt2 = pd.DataFrame(np.arange(10).reshape(2,5))
se = pd.Series(range(2))

print(se)
print(dt1+se)
a = dt1.add(se,axis = 0)
print(a)

在这里插入图片描述运行结果如上;
表明若没有指明哪个轴,默认在axis = 0维度上进行运算;
同时,NaN运算后还为NaN。

4.数据的排序

一般来说有两种排序方法,第一种是根据索引名称

dt = dt.sort_index(axis = ,ascending = )

第二种则是根据数据values的大小

dt = dt.sort_value(by = ,axis = ,ascending = )

5.二维数组的统计分析

为了获得二维数组的统计值如均值,中位数,方差,平方差,最大最小值,可以使用

Series\DataFrame.describe()

输出结果

6.求相关性

Series.corr(Series)用于求两个Series类型的相关性

import pandas as pd
a = pd.Series([1,2,4,8])
b = pd.Series([0.1,0.2,0.3,0.4])
print(a.corr(b))

结果:0.959————强相关性

DataFrame.corr(method=‘pearson’, min_periods=1)

参数说明:

method:可选值为{‘pearson’, ‘kendall’, ‘spearman’}

   pearson:Pearson相关系数来衡量两个数据集合是否在一条线上面,即针对线性数据的相关系数计算,针对非线性                                           数据便会有误差。

   kendall:用于反映分类变量相关性的指标,即针对无序序列的相关系数,非正太分布的数据

   spearman:非线性的,非正太分析的数据的相关系数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值