Pandas数据载入与预处理(详细的数据Python处理方法)

本文详细介绍了如何使用Pandas进行数据载入,包括CSV、Excel文件的读取与存储;接着讲解了数据合并,如merge和concat方法;还涉及到数据清洗,如处理缺失值和重复值;并讨论了数据标准化和转换,如离差和标准差标准化,以及哑变量处理和连续型变量的离散化方法。
摘要由CSDN通过智能技术生成

Pandas数据载入与预处理

对于数据分析而言,数据大部分来源于外部数据,如常用的CSV文件、Excel文件和数据库文件等。Pandas库将外部数据转换为DataFrame数据格式,处理完成后再存储到相应的外部文件中。

NumPy常用的导入格式:import pandas as pd

一、数据载入

读取文本文件

文本文件是一种由若干行字符构成的计算机文件,它是一种典型的顺序文件。

txt文件:是Windows操作系统上附带的一种文本格式,文件以.txt为后缀。

CSV文件:是Comma-Separated Values的缩写,用半角逗号(’,’)作为字段值的分隔符。

Pandas中使用read_table来读取文本文件:
pandas.read_table(filepath_or_buffer, sep=’\t’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None)

Pandas中使用read_csv函数来读取CSV文件:
pandas.read_csv(filepath_or_buffer, sep=’,’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None)

read_table和read_csv常用参数及其说明:
在这里插入图片描述
例:

文本文件的存储

文本文件的存储和读取类似,结构化数据可以通过pandas中的to_csv函数实现以CSV文件格式存储文件。

DataFrame.to_csv(path_or_buf = None, sep = ’,’, na_rep, columns=None, header=True, index=True, index_label=None, mode=’w’, encoding=None)

Excel文件的读取

Pandas提供了read_excel函数读取“xls”和“xlsx”两种excel文件,其格式为:
pandas.read_excel(io, sheetname, header=0, index_col=None, names=None, dtype)

read_excel函数和read_table函数的部分参数相同.
在这里插入图片描述
在这里插入图片描述
Excel文件的存储

将文件存储为Excel文件,可使用to_excel方法。其语法格式如下:
DataFrame.to_excel(excel_writer=None, sheetname=None’, na_rep=”, header=True, index=True, index_label&

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黎明之道

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值