第L1周：机器学习｜数据预处理

VvvVvvV621

已于 2024-08-10 09:42:10 修改

阅读量200

点赞数 7

文章标签：机器学习人工智能深度学习

于 2024-07-26 13:25:57 首次发布

本文链接：https://blog.csdn.net/VvvVvvV621/article/details/140712518

版权

🍨 本文为[🔗365天深度学习训练营]中的学习记录博客
🍖 原作者：[K同学啊]

准备

安装好numpy、Pandas、sklearn三个包
Python
Jupter Lab

Step1 导入库

import numpy  as np
import pandas as pd

Step2 导入数据集

dataset = pd.read_csv(r"...\Data.csv")
dataset

！注意！

在Python字符串中，反斜杠 (\) 是一个转义字符。为了在文件路径中使用反斜杠，你需要使用双反斜杠或者在字符串前面加上 r 来表示原始字符串。

X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 3].values

Step3 处理丢失数据

from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='mean')
imputer = imputer.fit(X[ : , 1:3])

X[ : , 1:3] = imputer.transform(X[ : , 1:3])
X

Step4 进行Label编码

from sklearn.preprocessing import LabelEncoder, OneHotEncoder

labelencoder_X = LabelEncoder()
X[ : , 0]      = labelencoder_X.fit_transform(X[ : , 0]) 
X

labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)
Y

Step5 拆分为训练集和测试集

from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, 
                                                    Y, 
                                                    test_size = 0.2, 
                                                    random_state = 0)

Step6 特征标准化

from sklearn.preprocessing import StandardScaler

sc_X    = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test  = sc_X.transform(X_test)

VvvVvvV621

关注

7
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第L1周：机器学习｜数据预处理

- **🍨 本文为[🔗365天深度学习训练营](https://mp.weixin.qq.com/s/Z9yL_wt7L8aPOr9Lqb1K3w) 中的学习记录博客**>- **🍖 原作者：[K同学啊](https://mtyjkh.blog.csdn.net/)**) 是一个转义字符。为了在文件路径中使用反斜杠，你需要使用双反斜杠或者在字符串前面加上。Step5 拆分为训练集和测试集。Step4 进行Label编码。Step3 处理丢失数据。Step2 导入数据集。Step6 特征标准化。
复制链接

扫一扫