数据驱动---pandas模块

本文介绍了Python的Pandas库,其在数据处理中的核心组件DataFrame,以及常用函数如读取CSV和Excel文件、数据清洗、分组与聚合等。重点讲解了read_excel函数的详细参数和用途。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概念

Pandas是Python中用于数据分析和处理的强大库。它提供了一种简单而强大的方式来处理大型数据集,包括数据清洗、数据转换、数据聚合和可视化等。
Pandas的核心组件是DataFrame,这是一种二维表格型数据结构,可以存储各种类型的数据,并提供了丰富的操作来处理这些数据。你可以使用Pandas来读取和写入各种格式的数据,如CSV、Excel、SQL等,还可以使用它来进行数据清洗、排序、筛选、分组、聚合等操作。

常用的Pandas函数:

  1. read_csv():用于读取CSV文件并将其转换为DataFrame对象。
  2. read_excel():用于读取Excel文件并将其转换为DataFrame对象。
  3. head():返回DataFrame的前n行,默认为前5行。
  4. tail():返回DataFrame的最后n行,默认为最后5行。
  5. describe():描述性统计,提供DataFrame中数值列的计数、平均值、标准差、最小值、最大值等统计信息。
  6. groupby():按照指定的列对数据进行分组,并可以对每个分组进行聚合操作。
  7. merge():用于将两个DataFrame进行合并,基于指定的列进行匹配。
  8. loc[]:基于标签进行数据选择和筛选。
  9. iloc[]:基于整数位置进行数据选择和筛选。
  10. loc[]:用于在DataFrame上执行布尔索引,基于条件筛选数据。
  11. dropna():删除含有缺失值的行或列。
  12. fillna():填充缺失值,可以使用常数填充或使用前向后向填充。
  13. loc[]:基于标签进行数据选择和筛选。
  14. apply():对DataFrame的行或列应用自定义函数。
  15. map():对DataFrame的列应用映射函数。
  16. isin():检查元素是否存在于指定列表中,返回布尔值。
  17. where():根据条件选择数据,如果条件为真则保留该行/列,否则用NaN填充。

read_excel()  函数的详细说明:

pandas.read_excel(io, engine=None, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, parse_dates=True, date_parser=None, na_values=None, keep_default_na=True, verbose=False, skiprows=None, skipfooter=None, nrows=None, converters=None,傥引擎默认为 'openpyxl',如果文件格式不是 Excel 或 'openpyxl' 引擎无法读取,则需要指定其他引擎,如 'xlrd'。  

 sheet_name:str、int 或 list,默认为 0。要读取的工作表名称或索引。可以是单个名称、索引或多个名称的列表。如果指定了多个工作表,则返回一个字典,键为工作表名称,值为相应的 DataFrame。  
  
header:int,默认为 0。用作列名的行号。如果省略,则将使用第一行作为列名。  
  
names:list,默认为 None。自定义列名列表。必须具有与数据行数相同的长度。  
  
index_col:int、str 或 list,默认为 None。用作索引的列。可以是列名、列索引或列索引列表。如果指定了多个列,则使用它们的组合作为索引。  
  
usecols:int、str 或 list,默认为 None。要读取的列的整数索引、列名或列名列表。可以用于仅读取所需的列,提高读取性能。  
  
squeeze:
bool,默认为 False。如果返回的 DataFrame 只有一列,则返回 Series 对象。  
  
parse_dates:bool 或 list,默认为 True。将日期列解析为 datetime 对象。可以指定要解析的日期列或将其设置为 False 以避免解析日期。  
  
date_parser:function,默认为 None。自定义日期解析函数,必须能够接受 Pandas 的日期字符串并返回 datetime 对象。  
  
na_values:scalar、list-like 或 dict,默认为 None。要视为缺失值的值或值的列表/字典。这些值将用 NaN 表示。  
  
keep_default_na:bool,默认为 True。如果 na_values 为 None 且 keep_default_na 为 True,则将使用默认的缺失值列表 ['', '#N/A', '#N/A N/A', '-1.#IND', '-1.#QNAN', '-NaN', '-nan', '1.#IND', '1.#QNAN', '<NA>', 'N/A', 'NA', 'NULL', 'NaN', 'n/a', 'nan', 'null']。如果为 False,则不包括这些值。  
  
verbose:bool,默认为 False。显示详细的进度信息,包括正在读取的行数和已处理的单元格数。  
  
skiprows:list-like、int 或 callable,默认为 None。要跳过的行号或要跳过的行内容的函数。如果是整数,则表示要跳过的行数。如果是可调用对象,则应接受行内容并返回布尔值,指示是否应跳过该行。  
  
skipfooter:int,默认为 None。要跳过的页脚行数(从最后一行开始计数)。仅在 engine 为 'xlrd' 时可用。  
  
nrows:int,默认为 None。要读取的行数。仅在 engine 为 'xlrd' 时可用。  
  
converters:dict,默认为 None。将特定列中的数据转换为自定义格式的字典或函数映射。字典的值可以是函数或字典本身(用于更复杂的转换)。

  
 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值