机器学习之特征构建

最新推荐文章于 2024-05-14 23:46:16 发布

无心♧

最新推荐文章于 2024-05-14 23:46:16 发布

阅读量836

点赞数 3

分类专栏：机器学习----无监督学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_57646558/article/details/133356844

版权

机器学习----无监督学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

基于相关性特征选择的 Python 代码实现：

使用 scikit-learn 库实现 LSA和 LDA的 Python 代码：

解释代码：

3. 特征构建的完整步骤

导言

特征构建是机器学习中非常重要的一个步骤，它涉及到从原始数据中提取、选择和转换特征，使得提取到的特征更能反映数据的潜在信息，从而提高模型的性能。在特征构建的过程中，主要有以下几个方面：

特征提取：从原始数据中提取潜在的特征，例如从文本数据中提取关键词、从图像数据中提取边缘和纹理等。
特征选择：从提取到的特征中选择最具代表性的特征，剔除冗余和不相关的特征。这可以减小模型的复杂度，提高模型的泛化能力。
特征转换：将原始特征转换为更具意义的特征，例如将文本特征转换为向量、将时间序列数据转换为频率域等。这可以帮助模型更容易地捕捉到数据的潜在规律。
特征降维：对于高维数据，可以通过降维技术来减少特征的数量，同时保留尽可能多的原始信息。这可以提高模型的收敛速度，减少计算复杂度。

总之，特征构建的目标是找到能够有效表示数据的特征，从而提高模型在训练和测试集上的性能。在实际应用中，特征构建的方法和技巧需要根据具体的数据特点和任务需求进行选择和调整。

项目做什么---->获取数据（通过渠道）---->是否对数据处理（查看数据是否贴合项目）

1. 特征构建

特征构建是将原始数据转换为具有意义的特征向量的过程。以下是一些常见的特征构建技术：

1.1 特征缩放

特征缩放是将特征向量的每个分量缩放到相同的范围内，以减少特征之间的量纲差异。

特征缩放的 Python 代码实现：

import numpy as np

def feature_scaling(X):  
    """  
    特征缩放  
    :param X: 特征矩阵，每行为一个样本的特征向量  
    :return: 缩放后的特征矩阵  
    """  
    # 计算最大值和最小值  
    max_val = np.max(X, axis=0)  
    min_val = np.min(X, axis=0)

    # 计算缩放因子  
    scaling_factor = max_val - min_val

    # 缩放特征矩阵  
    X_scaled = (X - min_val) / scaling_factor

    return X_scaled

1.2 特征选择

特征选择是从原始特征中选择最具预测能力的特征。

基于相关性特征选择的 Python 代码实现：

import numpy as np

def feature_selection(X, y, threshold=0.95):  
    """  
    基于相关性特征选择  
    :param X: 特征矩阵，每行为一个样本的特征向量  
    :param y: 标签向量  
    :param threshold: 相关性阈值，默认为 0.95  
    :return: 选择后的特征矩阵  
    """  
    # 计算特征之间的相关性  
    corr_matrix = np.corrcoef(X.T)

    # 选择相关性高于阈值的特征  
    selected_features = []  
    for i in range(X.shape[1]):  
        for j in range(i+1, X.shape[1]):  
            if abs(corr_matrix[i, j]) > threshold:  
                selected_features.append(i)  
                selected_features.append(j)  
                break

    # 返回选择后的特征矩阵  
    return X[:, selected_features]

2. 特征转换

特征转换是将特征向量转换为另一种表示形式，以提高机器学习算法的性能。以下是一些常见的特征转换方法：

2.1 主成分分析 (PCA)

主成分分析是一种线性变换方法，可以将高维特征向量映射到低维特征向量，同时保留尽可能多的原始信息。

大矩阵 * 小矩阵---->新的小矩阵（无字段含义）

【注】做完压缩，原始信息会丢失部分

PCA 的 Python 代码实现：

import numpy as np  
from sklearn.decomposition import PCA

def pca(X, n_components=0.95):  
    """  
    主成分分析  
    :param X: 特征矩阵，每行为一个样本的特征向量  
    :param n_components: 保留的主成分数量，默认为 0.95  
    :return: 降维后的特征矩阵  
    """  
    pca = PCA(n_components=n_components)  
    X_reduced = pca.fit_transform(X)

    return X_reduced

2.2 LSA（自然语言处理）

线性判别分析（LSA）是一种监督学习方法，它通过找到一个最佳投影方向，将高维特征空间映射到低维特征空间（降维），同时尽可能地分隔不同类别的样本。

LSA 是一种通过降维技术来揭示数据中隐藏的结构的方法，特别适用于处理高维数据。在 NLP 中，LSA 可以用于提取文本数据中的潜在语义信息，从而减少数据维度并保留 80% 至 90% 的原始信息。这种方法可以帮助我们理解文本数据中的隐含含义，以及词汇之间的关系。LSA 通过计算词汇之间的共现矩阵，来揭示文本数据中的潜在语义结构，然后使用主成分分析（PCA）等降维技术将高维数据转换为低维数据，以更容易地处理和可视化数据。

LSA 的优点是简单、易于理解和实现，并且可以保留原始数据的结构信息。然而，它要求样本之间存在线性关系，因此在高维数据和复杂数据集上可能表现不佳。

2.3 LDA（线性判别分析）

LDA是一种监督学习方法，它通过在特征空间中找到一个最佳决策边界，将不同类别的样本分隔开来。

LDA 是一种监督学习方法，主要用于降维和分类。它通过线性变换将原始数据映射到一个新的特征空间，使得同一类别的数据在新空间中尽量聚集在一起，而不同类别的数据尽量分开。在 NLP 中，LDA 可以用于文本分类任务，例如将新闻文章分类为政治、经济、体育等不同类别。LDA 通过计算文本数据中的词汇分布，来构建文档-- 词汇矩阵，然后使用线性判别函数将文档映射到新的特征空间。在新的特征空间中，同一类别的文档会聚集在一起，从而便于进行分类。

LDA 的优点是可以处理线性关系和非线性关系，并且可以用于分类和回归问题。然而，它需要计算特征之间的协方差矩阵，这在大规模数据集上可能效率较低。

总之，LSA 和 LDA 都是用于处理文本数据的机器学习技术。LSA 主要用于提取文本数据中的潜在语义信息，保留原始信息的 80% 至 90%，而 LDA 主要用于降维和分类任务，将文本数据映射到新的特征空间，以实现更好的分类效果。

使用 scikit-learn 库实现 LSA和 LDA的 Python 代码：

import numpy as np  
from sklearn.model_selection import train_test_split  
from sklearn.linear_model import LogisticRegression  
from sklearn.metrics import accuracy_score  
from sklearn.preprocessing import StandardScaler

# 生成模拟数据  
np.random.seed(0)  
X = np.random.rand(100, 10)  
y = (X[:, 0] + X[:, 1] > 1).astype(int)

# 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 对数据进行标准化处理  
scaler = StandardScaler()  
X_train_std = scaler.fit_transform(X_train)  
X_test_std = scaler.transform(X_test)

# 训练 LSA 模型  
lsa_model = LogisticRegression(solver='lsqr', multi_class='ovr')  
lsa_model.fit(X_train_std, y_train)  
y_pred_lsa = lsa_model.predict(X_test_std)

# 计算 LSA 模型的准确率  
accuracy_lsa = accuracy_score(y_test, y_pred_lsa)  
print("LSA 模型的准确率：", accuracy_lsa)

# 训练 LDA 模型  
lda_model = LogisticRegression(solver='lsqr', multi_class='ovr', C=1.0, class_weight='balanced')  
lda_model.fit(X_train_std, y_train)  
y_pred_lda = lda_model.predict(X_test_std)

# 计算 LDA 模型的准确率  
accuracy_lda = accuracy_score(y_test, y_pred_lda)  
print("LDA 模型的准确率：", accuracy_lda)

解释代码：

这段代码首先导入了所需的库，如 numpy、scikit-learn 等。然后，它生成了一个包含 100 个样本的模拟数据集，每个样本有 10 个特征。这些样本的标签（y）是根据样本特征 1 和特征 2 的和大于 1 设定的。

接下来，代码将数据集划分为训练集和测试集，以便在训练模型后测试其性能。

为了便于比较 LSA 和 LDA 模型的性能，代码对数据进行了标准化处理。这使得特征缩放到相同的范围，有助于提高模型的收敛速度和性能。

然后，代码训练了两个模型：LSA 模型和 LDA 模型。这里，我们使用了逻辑回归作为基线模型，因为 LSA 和 LDA 都是基于线性变换的方法。LSA 模型通过计算词汇之间的共现矩阵来揭示文本数据中的潜在语义结构，然后使用主成分分析（PCA）等降维技术将高维数据转换为低维数据。LDA 模型则通过计算文本数据中的词汇分布来构建文档-- 词汇矩阵，然后使用线性判别函数将文档映射到新的特征空间。

最后，代码计算了两个模型的准确率，并打印了结果。这有助于我们了解在给定数据集上，LSA 和 LDA 模型哪个具有更好的性能。