2020-12-19

在这里插入图片描述
文件读取和写入
格式:
pd.read_csv(‘复制文件地址/文件名.csv’)
pd.read_excel(‘复制文件地址/文名.excel’)
pd.read_table(‘复制文件地址/文件名.txt’)

数据写入
一般在数据写入中,最常用的操作是把index设置为False,特别当索引没有特殊意义的时候,这样的行为能把索引在保存的时候去除。表格快速转换为markdown和latex语言,可以使用to_markdown和to_latex函数,此处需要安装tabulate包。

基本数据结构
Series一般由四个部分组成,分别是
序列的值data、
索引index、
存储类型dtype、
序列的名字name。
其中,索引也可以指定它的名字,默认为空。例如

In[22]:s=pd.Series(
data=[100,'a'{'dic1':5}],
index=pd.Index(['id1',20,'third'],name='my_idx'),
dtype='object',
name='my_name')
In[23]:s
Out[23]:
my_idx
id1    100
20     a
third   {'dic1':5}
Name:my_name,dtype:object
In[24]:s.values   //不能用s.data
Out[24]:array([100,'a'{'dic1':5}],dtype=object)

object类型为混合类型DataFrameDataFrame在Series的基础上增加了列索引,一个数据框可以由二维的data与行列索引来构造:例:但一般而言,更多的时候会采用从列索引名到数据的映射来构造数据框,同时再加上行索引:

常用基本函数
汇总函数
head,tail函数分别表示返回表或者序列的前n行和后n行,其中n默认为5
info,describe分别返回表的信息概况和表中数值列对应的主要统计量:
特征统计函数
在Series和DataFrame上定义了许多统计函数,最常见的是
sum(求和),mean(平均值),median(中位数),var(方差),std(标准差),max(最大值),min(最小值)。quantile:分位数
,count,非缺失值个数
idxmax:最大值对应的索引:
都通过 . 来调用。

唯一值函数
对序列使用unique和nunique可以分别得到其唯一值组成的列表和唯一值的个数:
value_counts可以得到唯一值和其对应出现的频数:
如果想要观察多个列组合的唯一值,可以使用drop_duplicates。其中的关键参数是keep,默认值frst表示每个组合保留第一次出现的所在行,
last表示保留最后一次出现的所在行,
False表示把所有重复组合所在的行剔除。

此外,duplicated和drop_duplicates的功能类似,但前者返回了是否为唯一值的布尔列表
其keep参数与后者一致。其返回的序列,把重复元素设为True,否则为False。drop_duplicates等价于把duplicated为True的对应行剔除。

替换函数
映射替换、

In[67]:df['Gender'].replace({'Female':0,'Male':1}).head()
Out[67]:
0 0
1 1
2 1
3 0
4 1
Name:Gender,dtype:int64
In[68]:df['Gender'].replace(['Female','Male'],[0,1]).head()
Out[68]:
0 0
1 1
2 1
3 0
4 1
Name:Gender,dtype:int64

逻辑替换、
数值替换。

排序函数
值排序:sort_values
索引排序:sort_index

apply方法

窗口对象
滑动窗口rolling:要使用滑窗函数,就必须先要对一个序列使用.rolling得到滑窗对象,其最重要的参数为窗口大小window。

扩张窗口expanding
扩张窗口又称累计窗口,可以理解为一个动态长度的窗口,其窗口的大小就是从序列开始处到具体操作的对应位置,其使用的聚合函数会作用于这些逐步扩张的窗口上。具体地说,设序列为a1,a2,a3,a4,则其每个位置对应的窗口即[a1]、[a1,a2]、[a1,a2,a3]、[a1,a2,a3,a4]。
例:

In[114]:s=pd.Series([1,3,6,10])
In[115]:s.expanding().mean()
Out[115]:
0 1.000000
1 2.000000
2 3.333333
3 5.000000
dtype:float64

指数加权窗口ewm

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值