数分-工具-Pandas2-pandas基础

Pandas基础与数据操作实战

最新推荐文章于 2024-05-17 22:17:02 发布

原创

最新推荐文章于 2024-05-17 22:17:02 发布 · 544 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #python

本文详细介绍了Pandas库的基本操作，包括文件的读取与写入，如read_csv、read_excel、write_csv等；核心数据结构Series和DataFrame的使用；常用统计函数如mean、median、std等；窗口对象的滑动窗口与扩展窗口，以及指数加权窗口ewm；还涵盖了排序、应用方法和数据清洗等实用技巧。通过实例解析，帮助读者深入理解Pandas在数据分析中的应用。

数分-工具-Pandas2-pandas基础

(AI算法系列)

1知识点

文件读取写入
- 文件读取
- 数据写入
基本数据结构
- Series
- DataFrame
常用基本函数
- 汇总函数
- 特征统计函数
- 唯一值函数
- 替换函数
- 排序函数
- apply方法
窗口对象
- 滑窗对象
- 扩展窗口
练习

2具体内容

2.1文件读取写入

2.1.1文件读取

import pandas as pd
df_csv = pd.read_csv('')

excel

df_excel = pd.read_excel('')

df_txt = pd.read_table('')

header=None 表示第一行不作为列名
index_col 表示把某一列或几列作为索引
usecols 表示读取列的集合，默认读取所有的列
parse_dates 表示需要转化为时间的列
nrows 表示读取的数据行数。
txt：sep自定义分隔符，指定python引擎；使用正则表达式时进行转义

2.1.2数据写入

index = False，保存时去除索引
to_csv可存txt文件，允许自定义分隔符\t

df_txt.to_csv('', sep='\t', index=False)

to_markdown
to_latex(tabulate包)

2.2基本数据结构

2.2.1Series

1.组成

序列的值data
索引index（也可指定索引名字，默认空）
存储类型dtype
序列名name
2.object类型（混合类型）用‘.’获取属性值
s.values
s.index
s.dtype
s.name
s.shape
s[‘third’]取某个索引的值

2.2.2DataFrame-二维

构建，比Series多了列索引

[col_name] 与 [col_list] 来取出相应的列与由多个列组成的表，结果分别为 Series 和 DataFrame
同样用‘.’获取属性值
.T转置

2.3常用基本函数

df.columns

2.3.1汇总函数

df.head()\df.tail()
df.info()
df.describe()(pandas-profiling包)

2.3.2特征统计函数

sum
mean
median
var
std
max
min
quantile 分位数
count 非缺失值个数
idxmax 最大值索引
注：返回标量，聚合函数，axis=1逐行聚合，默认0逐列聚合

2.3.3唯一值函数g

unique 唯一值组成的列表
nunique 唯一值个数
value_counts 唯一值和其对应出现的频数
drop_duplicates多个列组合的唯一值
- keep=[first,last,False]
  - first每个组合保留第一次出现的所在行

最低0.47元/天解锁文章

数分-工具-Pandas2-pandas基础

数分-工具-Pandas2-pandas基础

文章目录

1知识点

2具体内容

2.1文件读取写入

2.1.1文件读取

2.1.2数据写入

2.2基本数据结构

2.2.1Series

2.2.2DataFrame-二维

2.3常用基本函数

2.3.1汇总函数

2.3.2特征统计函数

2.3.3唯一值函数g

1 条评论