机器学习之数据预处理,Pandas读取excel数据

Python读写excel的工具库很多,比如最耳熟能详的xlrd、xlwt,xlutils,openpyxl等。其中xlrd和xlwt库通常配合使用,一个用于读,一个用于写excel。xlutils结合xlrd可以达到修改excel文件目的。openpyxl可以对excel文件同时进行读写操作。

而说到数据预处理,pandas就体现除了它的强大之处,并且它还支持可读写多种文档格式,其中就包括对excel的读写。本文重点就是介绍pandas对excel数据集的预处理。

机器学习常用的模型对数据输入都是有要求的,多数机器学习算法最基本的要求是训练数据要转换成数值格式。当然,也有像决策树算法这种不需要转换为数值的算法,这里不做特例讨论。

pandas读取excel文件的函数是pandas.read_excel(),主要参数包括:

io : 读取的excel文档地址,

        string, path object (pathlib.Path or py._path.local.LocalPath),

file-like object, pandas ExcelFile, or xlrd workbook. The string could be a URL. Valid URL schemes include http, ftp, s3, and file. For file URLs, a host is expected. For instance, a local file could be file://localhost/path/to/workbook.xlsx

sheet_name : 读取的excel指定的sheet页

        string, int, mixed list of strings/ints, or None, default 0

Strings are used for sheet names, Integers are used in zero-indexed sheet positions.

Lists of strings/integers are used to request multiple sheets.

Specify None to get all sheets.

str|int -> DataFrame is returned. list|None -> Dict of DataFrames is returned, with keys representing sheets.

Available Cases

  • Defaults to 0
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据预处理数据分析和机器学习任务中是一个重要的步骤,而pandas是一个功能强大的Python库,常用于数据处理和分析。下面是一些常见的数据预处理任务,可以使用pandas来完成: 1. 读取数据:使用pandas可以方便地从各种数据源(如CSV文件、Excel文件、数据库等)中读取数据,例如使用`read_csv()`函数读取CSV文件。 2. 缺失值处理:通过使用`isna()`函数检测缺失值,并使用`fillna()`函数填充缺失值,或者使用`dropna()`函数删除缺失值。 3. 数据转换:可以使用`astype()`函数将数据类型转换为其他类型,例如将字符串类型转换为数值类型。 4. 数据清洗:对于一些不符合逻辑或错误的数据,可以使用条件语句和逻辑运算符进行清洗。 5. 数据排序和过滤:使用`sort_values()`函数对数据进行排序,使用条件语句和逻辑运算符对数据进行过滤。 6. 数据合并和拆分:可以使用`concat()`函数将多个数据集合并成一个,使用`split()`函数将一个数据集拆分成多个。 7. 特征工程:通过创建新的特征、特征编码、特征缩放等方式对数据进行特征工程,以提高模型的性能。 8. 数据归一化和标准化:使用`MinMaxScaler`或`StandardScaler`等类对数据进行归一化或标准化处理。 9. 数据离散化:使用`cut()`函数将连续型数据进行离散化处理,例如将年龄分成不同的年龄段。 10. 数据抽样:使用`sample()`函数对数据进行随机抽样,可以指定抽样比例或抽样数量。 这些只是数据预处理中的一部分任务,pandas还提供了更多功能和方法来处理数据。需要根据具体的数据和任务来选择使用哪些方法和函数。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值