Day 1_Data PreProcessing

最新推荐文章于 2024-06-19 20:55:34 发布

天一生水water

最新推荐文章于 2024-06-19 20:55:34 发布

阅读量252

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

82 篇文章 3 订阅

订阅专栏

数据集DATA.CSV

Country,Age,Salary,Purchased
France,44,72000,No
Spain,27,48000,Yes
Germany,30,54000,No
Spain,38,61000,No
Germany,40,,Yes
France,35,58000,Yes
Spain,,52000,No
France,48,79000,Yes
Germany,50,83000,No
France,37,67000,Yes

#Step 1: Importing the libraries

import numpy as np
import pandas as pd

#Step 2: Importing dataset

dataset=pd.read_csv('Data.csv')
X=dataset.iloc[:,:-1].values
Y=dataset.iloc[:,3].values

#Step 3: Handling the missing data

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

#Step 4: Encoding categorical data

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

#Creating a dummy variable
onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y = labelencoder_Y.fit_transform(Y)

#Step 5: Splitting the datasets into training sets and Test sets

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

#Step 6: Feature Scaling

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)

天一生水water

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

天一生水water CSDN认证博客专家 CSDN认证企业博客

码龄13年

227: 原创

2万+: 周排名

2180: 总排名

186万+: 访问

: 等级

1万+: 积分

540: 粉丝

575: 获赞

115: 评论

1571: 收藏

私信

关注

热门文章

分类专栏

GIS 1篇
软件开发 130篇
OFFICE 12篇
文件传输 3篇
WPF 23篇
学术论文 32篇
Oracle 3篇
web 8篇
J2EE 14篇
机器学习 82篇
app 17篇
数据集 1篇
区块链 114篇
软件架构 5篇
大数据 5篇
NOIP 1篇
石油 2篇

最新评论

深度学习中的注意力模块的添加
Sunrise!: x = F.avg_pool2d(x, x.size()[2:]).view(x.size(0), -1)运行出错了，RuntimeError: avg_pool2d: kernel_size must either be a single int, or a tuple of two ints，说的是kernel_size必须为int类型
Elsevier(SCI) 投稿要求翻译总结
Bailanking Jerry: 投稿需要最后tex的代码因为最后published的时候编辑需要调格式，但肯定不需要你文章算法的代码
wordvect嵌入和bert嵌入的区别
sandyz987: 一眼ai。。。
Elsevier(SCI) 投稿要求翻译总结
努力奋斗的混子: 请问投稿要代码或者审稿过程中审稿人会要代码吗
Word2Vec的CBOW模型
Frank_LFC: “如果窗口大小为5，那么当中心单词为“climbed”时，上下文单词为“The”、“cat”、“up”和“the”。这个窗口大小到底如何定义呢？我看有的文章说是窗口大小为2，即目标词前后各两个词。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。