2020-12-19

在这里插入图片描述
文件读取和写入
格式:pd.read_csv(‘复制文件地址/文件名.csv’)pd.read_excel(‘复制文件地址/文件名.excel’)pd.read_table(‘复制文件地址/文件名.txt’)
数据写入
一般在数据写入中,最常用的操作是把index设置为False,特别当索引没有特殊意义的时候,这样的行为能把索引在保存的时候去除。表格快速转换为markdown和latex语言,可以使用to_markdown和to_latex函数,此处需要安装tabulate包。
基本数据结构
Series一般由四个部分组成,分别是序列的值data、索引index、存储类型dtype、序列的名字name。其中,索引也可以指定它的名字,默认为空。例如
object类型为混合类型DataFrameDataFrame在Series的基础上增加了列索引,一个数据框可以由二维的data与行列索引来构造:例:但一般而言,更多的时候会采用从列索引名到数据的映射来构造数据框,同时再加上行索引:

常用基本函数
汇总函数:
head,tail函数分别表示返回表或者序列的前n行和后n行,其中n默认为5:
info,describe分别返回表的信息概况和表中数值列对应的主要统计量:
特征统计函数
在Series和DataFrame上定义了许多统计函数,最常见的是sum(求和),mean(平均值),median(中位数),var(方差),std(标准差),max(最大值),min(最小值)。
quantile:分位数
,count,非缺失值个数
idxmax:最大值对应的索引:


如,选出身高和体重列进行演示:

唯一值函数
对序列使用unique和nunique可以分别得到其唯一值组成的列表和唯一值的个数:
value_counts可以得到唯一值和其对应出现的频数:
如果想要观察多个列组合的唯一值,可以使用drop_duplicates。其中的关键参数是keep,默认值frst表示每个组合保留第一次出现的所在行,last表示保留最后一次出现的所在行,False表示把所有重复组合所在的行剔除。

此外,duplicated和drop_duplicates的功能类似,但前者返回了是否为唯一值的布尔列表,其keep参数与后者一致。其返回的序列,把重复元素设为True,否则为False。drop_duplicates等价于把duplicated为True的对应行剔除。

替换函数
映射替换、
逻辑替换、
数值替换。

排序函数
值排序:sort_values
索引排序:sort_index。

窗口对象
滑动窗口rolling:要使用滑窗函数,就必须先要对一个序列使用.rolling得到滑窗对象,其最重要的参数为窗口大小window。
扩张窗口expanding:
指数加权窗口ewm

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值