数分-工具-Pandas2-pandas基础

Pandas基础与数据操作实战
本文详细介绍了Pandas库的基本操作,包括文件的读取与写入,如read_csv、read_excel、write_csv等;核心数据结构Series和DataFrame的使用;常用统计函数如mean、median、std等;窗口对象的滑动窗口与扩展窗口,以及指数加权窗口ewm;还涵盖了排序、应用方法和数据清洗等实用技巧。通过实例解析,帮助读者深入理解Pandas在数据分析中的应用。

数分-工具-Pandas2-pandas基础

(AI算法系列)

1知识点

  • 文件读取写入
    • 文件读取
    • 数据写入
  • 基本数据结构
    • Series
    • DataFrame
  • 常用基本函数
    • 汇总函数
    • 特征统计函数
    • 唯一值函数
    • 替换函数
    • 排序函数
    • apply方法
  • 窗口对象
    • 滑窗对象
    • 扩展窗口
  • 练习

2具体内容

2.1文件读取写入

2.1.1文件读取
  1. csv
import pandas as pd
df_csv = pd.read_csv('')
  1. excel
df_excel = pd.read_excel('')
  1. txt
df_txt = pd.read_table('')
  • header=None 表示第一行不作为列名
  • index_col 表示把某一列或几列作为索引
  • usecols 表示读取列的集合,默认读取所有的列
  • parse_dates 表示需要转化为时间的列
  • nrows 表示读取的数据行数。
  • txt:sep自定义分隔符,指定python引擎;使用正则表达式时进行转义
2.1.2数据写入

index = False,保存时去除索引
to_csv可存txt文件,允许自定义分隔符\t

df_txt.to_csv('', sep='\t', index=False)
  • to_markdown
  • to_latex(tabulate包)

2.2基本数据结构

2.2.1Series

1.组成

  • 序列的值data
  • 索引index(也可指定索引名字,默认空)
  • 存储类型dtype
  • 序列名name
    2.object类型(混合类型)用‘.’获取属性值
  • s.values
  • s.index
  • s.dtype
  • s.name
  • s.shape
  • s[‘third’]取某个索引的值
2.2.2DataFrame-二维

构建,比Series多了列索引

  • [col_name] 与 [col_list] 来取出相应的列与由多个列组成的表,结果分别为 Series 和 DataFrame
  • 同样用‘.’获取属性值
  • .T转置

2.3常用基本函数

df.columns

2.3.1汇总函数
  • df.head()\df.tail()
  • df.info()
  • df.describe()(pandas-profiling包)
2.3.2特征统计函数
  • sum
  • mean
  • median
  • var
  • std
  • max
  • min
  • quantile 分位数
  • count 非缺失值个数
  • idxmax 最大值索引
    注:返回标量,聚合函数,axis=1逐行聚合,默认0逐列聚合
2.3.3唯一值函数g
  • unique 唯一值组成的列表
  • nunique 唯一值个数
  • value_counts 唯一值和其对应出现的频数
  • drop_duplicates多个列组合的唯一值
    • keep=[first,last,False]
      • first每个组合保留第一次出现的所在行
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值