《机器学习100天》学习笔记——Day 1_Data_Preprocessing(数据预处理)-CSDN博客

本文链接：https://blog.csdn.net/qq_41929011/article/details/88786237

本文是《机器学习100天》系列的Day 1，主要介绍数据预处理，包括导入库、处理丢失数据、解析分类数据、拆分数据集和特征量化等步骤。通过使用Pandas、sklearn.preprocessing库，如Imputer和LabelEncoder，对数据进行处理，以准备训练和测试数据集。同时，文章提及One-Hot编码的概念及其在数据预处理中的应用。

摘要由CSDN通过智能技术生成

100-Days-Of-ML-Code
中文版《机器学习100天》
GitHub ：https://github.com/MLEveryday/100-Days-Of-ML-Code

导入第三方库可参考 https://jingyan.baidu.com/article/48b37f8dc107441a6564887e.html

自行生成了所用到的数据——Data.csv（注意数据之间需要以逗号分隔）
在这里插入图片描述

补加：后来在百度上搜索了下，发现了GitHub上下载单个文件的方法，可参考https://blog.csdn.net/smallcaff/article/details/79623174（悲催的我当时一个逗号一个逗号地改的……）

数据预处理主要包括六个部分：
1、导入库

import numpy as np
import pandas as pd

2、导入数据集
使用Pandas的read_csv方法读取本地csv文件为一个数据帧（DataFrame），然后从数据帧中制作自变量和因变量的矩阵和向量。

dataset = pd.read_csv('D:\PycharmProjects\DataSet\Data4.csv')   #读取csv文件
X = dataset.iloc[ : , :-1].values   #.iloc[行，列]，前面的:表示提取所有行，后面的为切片，提取到倒数第二列
Y = dataset.iloc[ : , 3].values     # : 全部行 or 列；[a]第a行 or 列

结果如下：（缺失的数据用nan表示）
在这里插入图片描述
3、处理丢失数据
用整列的平均值替换丢失的数据
用sklearn.preprocessing库中的Imputer类来完成

from sklearn.preprocessing import Imputer   
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1