2020-12-19

最新推荐文章于 2024-03-21 00:21:12 发布

qq_45967066

最新推荐文章于 2024-03-21 00:21:12 发布

阅读量74

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_45967066/article/details/111406612

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在这里插入图片描述
文件读取和写入
格式：pd.read_csv(‘复制文件地址/文件名.csv’)pd.read_excel(‘复制文件地址/文件名.excel’)pd.read_table(‘复制文件地址/文件名.txt’)
数据写入
一般在数据写入中，最常用的操作是把index设置为False，特别当索引没有特殊意义的时候，这样的行为能把索引在保存的时候去除。表格快速转换为markdown和latex语言，可以使用to_markdown和to_latex函数，此处需要安装tabulate包。
基本数据结构
Series一般由四个部分组成，分别是序列的值data、索引index、存储类型dtype、序列的名字name。其中，索引也可以指定它的名字，默认为空。例如
object类型为混合类型DataFrameDataFrame在Series的基础上增加了列索引，一个数据框可以由二维的data与行列索引来构造：例：但一般而言，更多的时候会采用从列索引名到数据的映射来构造数据框，同时再加上行索引：

常用基本函数
汇总函数：
head,tail函数分别表示返回表或者序列的前n行和后n行，其中n默认为5：
info,describe分别返回表的信息概况和表中数值列对应的主要统计量：
特征统计函数
在Series和DataFrame上定义了许多统计函数，最常见的是sum(求和),mean(平均值),median(中位数),var(方差),std(标准差),max(最大值),min(最小值)。
quantile：分位数
,count,非缺失值个数
idxmax：最大值对应的索引：

例
如，选出身高和体重列进行演示：

唯一值函数
对序列使用unique和nunique可以分别得到其唯一值组成的列表和唯一值的个数：
value_counts可以得到唯一值和其对应出现的频数：
如果想要观察多个列组合的唯一值，可以使用drop_duplicates。其中的关键参数是keep，默认值frst表示每个组合保留第一次出现的所在行，last表示保留最后一次出现的所在行，False表示把所有重复组合所在的行剔除。

此外，duplicated和drop_duplicates的功能类似，但前者返回了是否为唯一值的布尔列表，其keep参数与后者一致。其返回的序列，把重复元素设为True，否则为False。drop_duplicates等价于把duplicated为True的对应行剔除。

替换函数
映射替换、
逻辑替换、
数值替换。

排序函数
值排序：sort_values
索引排序：sort_index。

窗口对象
滑动窗口rolling：要使用滑窗函数，就必须先要对一个序列使用.rolling得到滑窗对象，其最重要的参数为窗口大小window。
扩张窗口expanding：
指数加权窗口ewm