小零呦-CSDN博客

原创机器学习数据分析——数据特征选定

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。因此，特征过程的本质就是一项工程活动，目的是最大限度地从原始数据中提取合适的特征，以供算法和模型使用。特征处理是特征工程的核心部分，scikit-leam提供了较为完整的特征处理方法，包括数据预处理、特征选择、降维等。以下介绍四个数据特征选择的方法：单变量特征选定、递归特征消除、主要成分分析、特征的重要性。特征选定特征选定是一个流程，能够选择有助于提高预测结果准确度的特征数据，或者有助于发现我们感兴趣的输出结果的特征数据。如果数据中包含无

2021-05-13 16:51:08 1295

原创机器学习——数据预处理

数据预处理需要根据数据本身的特性进行，有不同的格式和不同的要求，有缺失值的要填，有无效数据的要剔，有冗余维的要选，这些步骤都和数据本身的特性紧密相关。数据预处理大致分为三个步骤：数据的准备、数据的转换、数据的输出。数据处理是系统工程的基本环节，也是提高算法准确度的有效手段。因此，为了提高算法模型的准确度，在机器学习中也要根据算法的特征和数据的特征对数据进行转换。这里将利用scikit-learn来转换数据，以便我们将处理后的数据应用到算法中，这样也可以提高算法模型的准确度。主要介绍以下几种数据转换方法：调

2021-05-13 10:53:28 1223