如何用python进行数据预处理_用Python实现数据预处理

最新推荐文章于 2024-06-21 13:19:16 发布

weixin_39868959

最新推荐文章于 2024-06-21 13:19:16 发布

阅读量881

点赞数 1

文章标签：如何用python进行数据预处理

翻译:疯狂的技术数据预处理包括步骤:进口所需的库,导入数据集和处理缺失数据。编码分类数据。将数据集分为测试集和训练集,功能放大。所以让我们了解这些步骤。步骤1:导入所需的库我们每次创建一个新模型,我们将要求进口Numpy和熊猫。Numpy是一个库,它包含对科学计算数学函数,而熊猫是用于导入和管理数据集。导入熊猫一样pd进口numpy np我们导入熊猫和numpy库和名称分别为\u201C帕金森病\u201D和\u201Cnp\u201D。步骤2:导入数据集的数据集提供了. csv格式。CSV文件表数据存储在纯文本格式。文件的每一行是一种数据记录。我们使用熊猫的read_csv方法库读取本地CSV文件作为数据帧。

我们使用大熊猫iloc(用于修复指数选择)阅读列,其中包含两个参数\u2014\u2014(选择行,选择列)。X = [:,: 1]。valuesy = (: 3)。值步骤3:处理缺失数据的数据我们得到很少是均匀的。有时数据可能会丢失,所以需要处理,以免降低机器学习模型的性能。我们需要将丢失的数据替换为整个列意味着或值。为此,我们将使用库,其中包含一个类称为输入,这将帮助我们处理缺失数据。从进口Imputerimputer =输入(missing_values =\u201CNaN\u201D策略=\u201C的意思是\u201D,轴= 0)输入对象名称。输入类可以采取以下参数:missing_values:这是一个缺失值的占位符。

我们可以给它一个整数或南寻找失踪的价值观。策略:策略如果它这是归责原则的\u201C意思\u201D,沿着轴的平均值(列)是用来代替缺失值。其他策略包括\u201C中位数\u201D(中值)和\u201Cmost_frequent\u201D(最常见的)。轴:0或1,0插入列,和1插入行。现在与我们的数据匹配输入对象。输入= (X[: 1:3])然后使用转换方法来代替缺失值的平均值列。X (:, 1:3) = (X[: 1:3])第四步:任何非量化变量分类编码分类数据。如头发颜色、性别研究领域,大学就业、政治立场,疾病感染状况,等等。但是为什么编码?我们不能使用\u201C男性\u201D和\u201C女性\u201D等价物在模型的数学方程,所以这些变量需要编码为数字。

然后使用fit_transform方法分类功能。编码后,有必要区分变量在同一列,为此我们将在图书馆使用OneHotEncoder类。在一个炎热的编码在一个炎热的编码分类特性转换成格式更适合分类和回归算法。从进口LabelEncoder OneHotEncoderlabelencoder_X = LabelEncoder () X (: 0) = labelencoder__transform (X [: 0]) onehotencoder = onehotencoder (categorical_features = [0]) X = _transform (X) .toarray () labelencoder_y = LabelEncoder () y = labelencoder__transform (y)第五步:将数据集分为训练集和测试集,现在我们把数据分成两组。

称为测试集。他们的比率是80\/20。为此,我们导入train_test_split _selection库的方法。从_selection进口train_test_split现在建立训练集和测试集,我们将创建4 sets-X_train(培训部分特征矩阵),X_test(测试特征矩阵)的一部分,Y_train(培训因变量X相关集的一部分,所以也相同的索引),Y_test(测试的一部分因变量有关X测试集,所以相同的索引也是测试)。我们将分配他们test_train_split,接受参数数组(X, Y) test_size(指定数据集分割的比例)。X_train、X_test Y_train Y_test = train_test_split (X, Y, test_size = random_state = 0)第六步:功能扩展。

因此,高振幅的特性将在距离计算加权比低振幅特性。为了避免这一特性,使用标准化或z分数标准化。这是通过使用StandardScaler类。从进口StandardScalersc_X = StandardScaler()此外,我们将改变X_test集,我们需要适应和转换X_train集。转换函数将所有数据转换为相同的标准化比率。X_train = sc__transform (X_train) X_test = sc_ (X_test)到目前为止,您已经了解了数据预处理的基本步骤。现在,你可以尝试应用这些预处理技术在一些实际的数据集。

weixin_39868959

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
如何用python进行数据预处理_用Python实现数据预处理

翻译:疯狂的技术数据预处理包括步骤:进口所需的库,导入数据集和处理缺失数据。编码分类数据。将数据集分为测试集和训练集,功能放大。所以让我们了解这些步骤。步骤1:导入所需的库我们每次创建一个新模型,我们将要求进口Numpy和熊猫。Numpy是一个库,它包含对科学计算数学函数,而熊猫是用于导入和管理数据集。导入熊猫一样pd进口numpy np我们导入熊猫和numpy库和名称分别为\u201C帕金森病\...
复制链接

扫一扫