作者:Afroz Chakure
翻译:疯狂的技术宅
未经允许严禁转载
机器学习的核心是处理数据。你的机器学习工具应该与数据的质量一样好。本文涉及清理数据的各个步骤。你的数据需要经过几个步骤才能用于预测。
数据预处理涉及的步骤:
导入所需的库
导入数据集
处理缺失的数据。
编码分类数据。
将数据集拆分为测试集和训练集。
特征缩放。
那么让我们逐一学习这些步骤。
步骤1:导入所需的库
你先需要下载此数据集:Data.csv
每次我们制作新模型时,都会要求导入 Numpy 和 Pandas。 Numpy 是一个包含数学函数的库,用于科学计算,而 Pandas 用于导入和管理数据集。
import pandas as pd
import numpy as np
在这里我们导入 pandas 和 Numpy 库并分别命名名 “pd” 和 “np”。
第2步:导入数据集
数据集以 .csv 格式提供。 CSV 文件以纯文本格式存储表格数据。该文件的每一行都是一个数据记录。我们使用 pandas 库的 read_csv 方法将本地 CSV 文件读取为数据帧(dataframe)。
dataset = pd.read_csv('Data.csv')
在仔细检查数据集之后,我们将在数据集(X)中创建一个特征矩阵,并创建一