机器学习-数据预处理(Data Preprocessing)

最新推荐文章于 2024-08-02 13:43:48 发布

YouChowMein

最新推荐文章于 2024-08-02 13:43:48 发布

阅读量2.4k

点赞数

分类专栏：机器学习文章标签： R Python RStudio Spyder 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YouChaoMin/article/details/84679550

版权

本文介绍了在Python的Spyder环境中和R环境下进行机器学习数据预处理的步骤，包括导入数据集、处理缺失数据、分类数据转换、特征缩放等操作。在Python中，使用Spyder的Variable explorer查看数据，并通过平均值填充缺失值；在R中，通过平均值处理缺失数据并使用特定包处理分类数据。同时，文章提到了将数据集划分为训练集和测试集的重要步骤。

摘要由CSDN通过智能技术生成

Spyder是Python(x,y)的作者为它开发的一个简单的集成开发环境。和其他的Python开发环境相比，它最大的优点就是模仿MATLAB的“工作空间”的功能，可以很方便地观察和修改数组的值。(安装过了就不重新安装了(o°ω°o)

Python环境下

在Spyder中导入标准库：

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

导入数据集(在File explorer把路径切换到数据集所在位置)：

dataset=pd.read_csv('Data.csv')

在Variable explorer中可以点击查看数据集内容：
设置自变量矩阵：

X = dataset.iloc[:, :-1].values

表示把数据集的所有行和除了最后一列外的所有列赋值给自变量矩阵X。

设置因变量向量：

y = dataset.iloc[:, 3].values

表示把数据集的所有行和最后一列(本数据集中最后一列为第3列)赋值给因变量向量y。

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。