Jann_L-CSDN博客

原创 BERT常见面试题问题

具体来说，这个15%的比例是在BERT的开发过程中通过实验得出的最优比例，它能够在模型的训练中取得比较好的效果。其中，BERT使用的Masked Language Modeling任务与传统的预测下一个词的语言模型不同，它要求模型从输入文本中掩盖一部分词汇，让模型学会在输入缺失的情况下仍然能够准确预测缺失部分的单词。BERT的embedding向量是在预训练阶段通过训练模型得到的，其中每个单词的embedding向量被训练出来，使得相似的单词在向量空间中距离更近，而不相似的单词距离更远。

2024-03-02 14:48:35 378 1

原创 Transformer通俗理解

2017 年，Google 在论文 Attention is All you need 中提出了 Transformer 模型，其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 网络结构。相比 RNN 网络结构，其最大的优点是可以并行计算。本内容主要介绍 Transformer 模型的具体实现。这篇博客，后面会按照自己的思路重新梳理。

2024-02-26 17:41:12 180

原创关于Can‘t find model ‘en_core_web_sm‘. 错误解决

第四种，利用代码的方式可以在编译器在线下载。第二种，conda命令配置（第三种，pip本地安装（

2024-02-22 14:01:58 1575 1

原创 RNN、LSTM、GRU神经网络复习

现在来更新旧细胞的状态，由 Ct-1 更新为 Ct，更新方式为：（1）把旧状态 Ct-1 与 ft 相乘（回顾一下，ft 就是遗忘门，输出遗忘程度，即 0 到 1 之间的值），丢弃掉需要丢弃的信息（如遗忘门输出 0，则相乘后变成 0，该信息就被丢弃了）；该门的示意图如下，该门会读取 ht-1 和 xt 的信息，通过 sigmoid 层输出一个介于 0 到 1 之间的数值，作为给每个在细胞状态 Ct-1 中的数字，0 表示 “完全舍弃”，1 表示 “完全保留”。不同的输入之间是没有联系的。

2024-02-21 17:29:07 991 1

原创深度学习--基于CNN实现自己数据的训练完整流程

基于上一篇原理的学习，现在基于Pytorch框架实现简单的CNN网络搭建已经完整的训练流程。部分代码在下述展示。

2024-02-21 13:44:56 231

原创基础神经网络架构一---CNN

如上图，卷积核大小是3x3的，也就是说其卷积核每次覆盖原图像的9个像素，行和列都滑动了3次，一共滑动3x3=9次，得到了一个 3 × 3 的二维数据。举一个标准的卷积运算例子，初始位置的计算过程是：1x1+1x0+1x1+0x0+1x1+1x0+0x1+0x0+1x1=4，详细的就不推导了。所以一幅图像的一个完整的卷积运算过程为：卷积核以一定的间隔滑动，并对所覆盖的区域进行卷积运算得到值 z，直至遍历完整幅图像。对于一个大小为 n 的原图像，经过大小为 f 的卷积运算后，其输出图像的尺寸为。

2024-02-20 21:04:32 640

原创基于深度学习知识结构的整理--常用方法

理解前向传播、反向传播（Backward Propagation，BP）BP 算法是一种参数学习方法，一般分为两个过程：前向传播（求误差），反向传播（误差回传）。前向是为反向准备好需要用的数值；反向本质是求梯度(求导)的方法。BP算法的一般流程：（1）正向传播FP(求损失)：在这个过程中,我们根据输入的样本,给定的初始化权重值W和偏置项的值b, 计算最终输出值以及输出值与实际值之间的损失值.如果损失值不在给定的范围内则进行反向传播的过程;否则停止W,b的更新.

2024-02-20 16:35:26 782

转载面试必备深度学习基础知识--快速搭建深度学习基础框架！

深度学习基础理解

2024-02-20 14:29:12 28

原创图神经网络 torch_geometric 依赖包的安装

图神经网络 torch_geometric 依赖包的安装

2024-02-15 11:57:59 231 1

2201_75283694的博客