数分-工具-Pandas2-pandas基础
(AI算法系列)
文章目录
1知识点
- 文件读取写入
- 文件读取
- 数据写入
- 基本数据结构
- Series
- DataFrame
- 常用基本函数
- 汇总函数
- 特征统计函数
- 唯一值函数
- 替换函数
- 排序函数
- apply方法
- 窗口对象
- 滑窗对象
- 扩展窗口
- 练习
2具体内容
2.1文件读取写入
2.1.1文件读取
- csv
import pandas as pd
df_csv = pd.read_csv('')
- excel
df_excel = pd.read_excel('')
- txt
df_txt = pd.read_table('')
- header=None 表示第一行不作为列名
- index_col 表示把某一列或几列作为索引
- usecols 表示读取列的集合,默认读取所有的列
- parse_dates 表示需要转化为时间的列
- nrows 表示读取的数据行数。
- txt:sep自定义分隔符,指定python引擎;使用正则表达式时进行转义
2.1.2数据写入
index = False,保存时去除索引
to_csv可存txt文件,允许自定义分隔符\t
df_txt.to_csv('', sep='\t', index=False)
- to_markdown
- to_latex(tabulate包)
2.2基本数据结构
2.2.1Series
1.组成
- 序列的值data
- 索引index(也可指定索引名字,默认空)
- 存储类型dtype
- 序列名name
2.object类型(混合类型)用‘.’获取属性值 - s.values
- s.index
- s.dtype
- s.name
- s.shape
- s[‘third’]取某个索引的值
2.2.2DataFrame-二维
构建,比Series多了列索引
- [col_name] 与 [col_list] 来取出相应的列与由多个列组成的表,结果分别为 Series 和 DataFrame
- 同样用‘.’获取属性值
- .T转置
2.3常用基本函数
df.columns
2.3.1汇总函数
- df.head()\df.tail()
- df.info()
- df.describe()(pandas-profiling包)
2.3.2特征统计函数
- sum
- mean
- median
- var
- std
- max
- min
- quantile 分位数
- count 非缺失值个数
- idxmax 最大值索引
注:返回标量,聚合函数,axis=1逐行聚合,默认0逐列聚合
2.3.3唯一值函数g
- unique 唯一值组成的列表
- nunique 唯一值个数
- value_counts 唯一值和其对应出现的频数
- drop_duplicates多个列组合的唯一值
- keep=[first,last,False]
- first每个组合保留第一次出现的所在行
- keep=[first,last,False]
Pandas基础与数据操作实战

本文详细介绍了Pandas库的基本操作,包括文件的读取与写入,如read_csv、read_excel、write_csv等;核心数据结构Series和DataFrame的使用;常用统计函数如mean、median、std等;窗口对象的滑动窗口与扩展窗口,以及指数加权窗口ewm;还涵盖了排序、应用方法和数据清洗等实用技巧。通过实例解析,帮助读者深入理解Pandas在数据分析中的应用。
最低0.47元/天 解锁文章
1006





