《机器学习100天》学习笔记——Day 1_Data_Preprocessing(数据预处理)

本文是《机器学习100天》系列的Day 1,主要介绍数据预处理,包括导入库、处理丢失数据、解析分类数据、拆分数据集和特征量化等步骤。通过使用Pandas、sklearn.preprocessing库,如Imputer和LabelEncoder,对数据进行处理,以准备训练和测试数据集。同时,文章提及One-Hot编码的概念及其在数据预处理中的应用。
摘要由CSDN通过智能技术生成

100-Days-Of-ML-Code
中文版《机器学习100天》
GitHub :https://github.com/MLEveryday/100-Days-Of-ML-Code

导入第三方库可参考 https://jingyan.baidu.com/article/48b37f8dc107441a6564887e.html

自行生成了所用到的数据——Data.csv(注意数据之间需要以逗号分隔)
在这里插入图片描述
在这里插入图片描述
补加:后来在百度上搜索了下,发现了GitHub上下载单个文件的方法,可参考https://blog.csdn.net/smallcaff/article/details/79623174(悲催的我当时一个逗号一个逗号地改的……)

数据预处理主要包括六个部分:
1、导入库

import numpy as np
import pandas as pd

2、导入数据集
使用Pandas的read_csv方法读取本地csv文件为一个数据帧(DataFrame),然后从数据帧中制作自变量和因变量的矩阵和向量。

dataset = pd.read_csv('D:\PycharmProjects\DataSet\Data4.csv')   #读取csv文件
X = dataset.iloc[ : , :-1].values   #.iloc[行,列],前面的:表示提取所有行,后面的为切片,提取到倒数第二列
Y = dataset.iloc[ : , 3].values     # : 全部行 or 列;[a]第a行 or 列

结果如下:(缺失的数据用nan表示)
在这里插入图片描述
3、处理丢失数据
用整列的平均值替换丢失的数据
用sklearn.preprocessing库中的Imputer类来完成

from sklearn.preprocessing import Imputer   
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值