Michael_Yen-CSDN博客

原创简历项目_实现西班牙语翻译为英语的机器翻译模型

该项目旨在开发一种能够将西班牙语翻译为英语的模型，通过训练神经网络来识别数据模式并生成准确的翻译。

2023-08-14 21:43:44 137

在不使用注意力机制的情况下，模型可能会受限于只能在固定大小的上下文窗口内工作，而注意力机制允许模型在整个输入序列上动态地关注重要的信息。对于每个生成的输出元素，模型会根据当前的上下文状态和输入序列中的不同部分计算一个注意力分布，该分布指示了每个输入位置对于当前输出的重要性。在不使用注意力机制的情况下，编码器必须将整个输入序列的信息压缩成一个固定维度的中间表示。在Seq2Seq模型中，注意力机制通常用于解码器部分，使解码器在生成每个输出元素时，能够根据输入序列中不同位置的信息进行相关性加权。

2023-08-11 22:12:13 162 1

原创深度学习_Sequence-to-Sequence模型

它的核心思想是将输入序列映射到一个上下文向量，然后从这个中间表示生成输出序列。在编码阶段，输入序列通过编码器，生成上下文向量。在解码阶段，解码器使用上下文向量和前一个时间步生成的内容来生成输出序列。主要任务是将编码器生成的语义信息转化为目标序列，它通过逐步生成下一个输出元素，并将其添加到生成序列中。在生成每个元素时，解码器使用先前生成的元素和上下文向量来决定下一个元素的生成。编码器接收输入序列，比如源语言的句子，然后将每个输入元素（如单词或字符）映射到一个固定维度的向量表示。

2023-08-11 22:11:37 232 1

原创深度学习_GRU模型

它是一种用于捕捉时间相关性的神经网络架构，相较于传统的RNN和长短时记忆网络（LSTM），GRU具有更简单的结构，同时在某些任务上表现得很出色。决定前一个时间步的隐藏状态对当前时间步的影响。它也使用输入序列和前一个时间步的隐藏状态来计算一个0到1之间的值，表示保留多少前一个时间步的隐藏状态。相对于LSTM，GRU的结构更简化，有时在某些任务上可以取得类似的性能，同时具有更高的计算效率。过将更新门应用于前一个时间步的隐藏状态和候选隐藏状态之间进行插值，生成当前时间步的新的隐藏状态。

2023-08-10 20:33:27 1174 1

原创深度学习_LSTM模型

它结合当前时刻的输入和前一时刻的隐藏状态，通过一个sigmoid激活函数生成一个0到1之间的值，同时通过tanh激活函数生成一个在-1到1之间的值，用于将信息映射到输出范围。嵌入层和输出层在两个模型中都是相似的，因为它们是通用的网络构建块。LSTM在处理具有长期依赖关系的序列数据时表现出色，相对于传统的RNN结构，LSTM能够更好地捕捉序列中的长期依赖关系，防止梯度消失或梯度爆炸问题。它结合当前时刻的输入和前一时刻的隐藏状态，通过一个sigmoid激活函数生成一个0到1之间的值，表示对于哪些信息进行更新。

2023-08-10 20:32:57 206 1

原创深度学习_RNN模型

评论的情感信息通常依赖于整个文本的组织结构和上下文，SimpleRNN能够处理这种序列性质，提取关键的情感特征。这个全连接层是模型的输出层，它将SimpleRNN的隐藏状态输出映射为一个情感分类的概率值。RNN的处理文本的原理是通过时间的展开来处理输入的文本序列。在自然语言处理任务中，嵌入层通常用于将词汇中的单词映射为词嵌入向量，以便模型能够更好地理解单词之间的语义关系。这是通过使用循环连接实现的，允许信息从序列中的一个步骤传递到下一个步骤，有效地使网络记住先前的信息，并用它来影响未来的预测。

2023-08-10 20:32:23 176 1

原创机器学习_LightGBM

LightGBM采用了GOSS采样策略和基于直方图的分桶技术，使其在训练速度方面表现出色，特别适合大规模数据集。通过特征列压缩和稀疏直方图算法来降低内存占用，能够有效地处理大量特征和样本。专注于处理大规模数据，能够高效地处理数百万甚至上亿个样本。用于处理高效率、大规模数据集的机器学习问题。与传统的梯度提升算法相比，LightGBM在训练速度和内存利用方面具有显著优势。LightGBM在小规模数据集上可能会因为其优化策略而导致过拟合。

2023-08-09 11:54:17 256

原创机器学习_XGBoost

计算损失函数的梯度和海森矩阵，用于构建每棵树的损失函数。根据树的分数计算样本的权重，用于调整样本在下一轮迭代中的影响。通过在每个分裂节点选择最优特征，强调了特征选择的重要性，从而提高了模型的准确性。在大规模数据集上，由于高效的算法和并行化的特性，XGBoost可能需要更多的计算资源，包括内存和处理器。XGBoost有一些超参数需要进行调整，如树的深度、学习率等，不正确的超参数设置可能会影响性能。最终的模型是所有决策树的加权融合，每个决策树的权重与其性能和贡献相关。

2023-08-09 11:53:35 75 1

原创机器学习_GBDT

它通过迭代地训练一系列的决策树，并逐步改进模型性能，弥补每一轮迭代中前一轮模型的残差。GBDT的基础学习器通常是决策树，通常是深度较浅的树，也被称为弱学习器。每棵树都是为了减少上一轮模型的残差而创建的。使用训练数据和计算出的残差作为目标，训练一个新的决策树模型，以尽量减少残差。将新训练的决策树模型添加到当前模型中，以更新模型的预测。GBDT有一些超参数需要调整，如迭代次数、树的深度等，不正确的超参数设置可能会影响性能。最终的模型是所有决策树的加权融合，每个决策树的权重与其性能和贡献相关。

2023-08-09 11:52:38 49 1

原创机器学习_AdaBoost

计算这个弱学习器在训练数据上的错误率，即被错误分类的样本的总权重。根据错误率计算这个弱学习器的权重，表示其在最终集成中的贡献。错误率越低的学习器将获得更高的权重。被错误分类的样本的权重将增加，而被正确分类的样本的权重将减少，使得下一轮迭代中，弱学习器会更关注被错误分类的样本。它通过迭代训练一系列弱学习器，为当前权重下的被错误分类的示例分配较高的权重，为被正确分类的示例分配较低的权重。将所有弱学习器的预测进行加权结合，得到最终的强分类器。为训练数据集中的每个样本初始化权重，使它们在初始时都具有相同的权重值。

2023-08-09 11:51:29 66 1

原创机器学习_支持向量机

将数据映射到一个高维空间中，在空间中找到一个最优的超平面来分隔不同类别的数据，使得不同类别的数据点被分到不同的区域。SVM通过训练样本点构建一个划分超平面，并且在所有可能的划分超平面中找到一个能够最大化间隔的超平面，称之为最优超平面。SVM的目标是找到一个最佳的超平面，使得不同类别的数据点能够在超平面的两侧分开。较小的C值会导致更大的间隔但可能容忍更多的错误分类，而较大的C值会强调正确分类但可能导致较小的间隔。分隔超平面的两侧都有一些最接近超平面的数据点，这些数据点被称为“支持向量”。

2023-08-08 22:22:02 68

原创机器学习_K近邻算法

如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN的性能很大程度上依赖于选择合适的K值，不同的K值可能导致不同的分类结果。在实际应用中，K值一般取一个比较小的数值，例如采用交叉验证法来选择最优的K值。用于多类别分类问题，并且对于类别不平衡的数据集也可以有效处理。返回前k个点出现频率最高的类别作为当前点的预测分类。计算已知类别数据集中的点与当前点之间的距离。K值的增大就意味着整体的模型变得简单。统计前k个点所在的类别出现的频率。选取与当前点距离最小的k个点。

2023-08-07 21:04:14 77 1

詹姆斯.高斯林觉得很赞