监督学习中如何处理连续型和离散型特征？

_Johngo学长

已于 2024-04-29 18:25:56 修改

阅读量715

点赞数 26

分类专栏：监督学习100问文章标签：学习机器学习深度学习人工智能 sklearn

于 2024-04-29 15:41:52 首次发布

本文链接：https://blog.csdn.net/coszhuang/article/details/138315296

版权

监督学习100问专栏收录该内容

10 篇文章 0 订阅

订阅专栏

监督学习中如何处理连续型和离散型特征？

在监督学习中，特征是决定模型预测结果的关键因素。然而，在实际问题中，特征可能是连续型或离散型的。对于机器学习算法工程师而言，正确处理这两种不同类型的特征非常重要，因为不同类型的特征需要采用不同的方法进行处理和转换。

连续型特征的处理

连续型特征是指具有无限可能取值的特征，比如年龄、身高等。在处理连续型特征时，常用的方法是进行特征缩放和标准化，以便模型可以更好地理解和处理这些特征。

特征缩放可以将特征的取值范围调整到一定区间内，常见的方法是线性缩放或最小-最大缩放。线性缩放可以将特征的取值范围映射到[0, 1]或[-1, 1]之间，而最小-最大缩放可以将特征的取值范围映射到任意指定的区间。

标准化是将特征的分布调整为均值为0、标准差为1的正态分布。这样做的好处是可以消除特征之间的比例差异，使得模型对于不同特征的重要性更加客观，且可以加快算法的收敛速度。

下面是标准化的计算步骤和Python代码示例：

计算特征的均值( $\mu$ )和标准差( $\sigma$ )。

$\mu = \frac{1}{n}\sum_{i=1}^{n}x_i$

$\sigma = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2}$

其中， $x_i$ 表示第i个样本的特征取值，n表示样本的数量。

对每个样本的特征进行标准化。

$\hat{x_i} = \frac{x_i - \mu}{\sigma}$

Python代码示例：

import numpy as np

def standardize_features(features):
    mean = np.mean(features, axis=0)
    std = np.std(features, axis=0)
    standardized_features = (features - mean) / std
    return standardized_features

在上述代码中，features是一个包含所有样本的特征矩阵，mean和std分别是计算得到的特征均值和标准差，standardized_features是标准化后的特征矩阵。

离散型特征的处理

离散型特征是指具有有限取值集合的特征，比如性别、学历等。在处理离散型特征时，常用的方法是进行特征编码，将离散型特征转换为可供模型使用的数字表示。

常见的特征编码方法有独热编码（One-Hot Encoding）和标签编码（Label Encoding）。

独热编码将离散型特征的每个取值都扩展为一个独立的二进制特征，其中，对应取值的特征为1，其他特征为0。这样做的好处是能够保留特征之间的距离信息，并且不引入任意的排序关系。

下面是独热编码的计算步骤和Python代码示例：

将离散型特征的每个取值映射到一个整数编码。
构建一个全零的矩阵，矩阵的行数为样本数量，列数为特征的不同取值数量。
将每个样本的特征编码对应位置的值设为1。

Python代码示例：

import numpy as np

def one_hot_encoding(features):
    n_samples = features.shape[0]
    unique_values = np.unique(features)
    n_classes = len(unique_values)
    encoded_features = np.zeros((n_samples, n_classes))
    
    for i in range(n_samples):
        value = features[i]
        index = np.where(unique_values == value)[0][0]
        encoded_features[i, index] = 1
    
    return encoded_features