- 博客(9)
- 收藏
- 关注
原创 BERT常见面试题问题
具体来说,这个15%的比例是在BERT的开发过程中通过实验得出的最优比例,它能够在模型的训练中取得比较好的效果。其中,BERT使用的Masked Language Modeling任务与传统的预测下一个词的语言模型不同,它要求模型从输入文本中掩盖一部分词汇,让模型学会在输入缺失的情况下仍然能够准确预测缺失部分的单词。BERT的embedding向量是在预训练阶段通过训练模型得到的,其中每个单词的embedding向量被训练出来,使得相似的单词在向量空间中距离更近,而不相似的单词距离更远。
2024-03-02 14:48:35 378 1
原创 Transformer通俗理解
2017 年,Google 在论文 Attention is All you need 中提出了 Transformer 模型,其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 网络结构。相比 RNN 网络结构,其最大的优点是可以并行计算。本内容主要介绍 Transformer 模型的具体实现。这篇博客,后面会按照自己的思路重新梳理。
2024-02-26 17:41:12 180
原创 关于Can‘t find model ‘en_core_web_sm‘. 错误解决
第四种,利用代码的方式可以在编译器在线下载。第二种,conda命令配置(第三种,pip本地安装(
2024-02-22 14:01:58 1575 1
原创 RNN、LSTM、GRU神经网络复习
现在来更新旧细胞的状态,由 Ct-1 更新为 Ct,更新方式为:(1)把旧状态 Ct-1 与 ft 相乘(回顾一下,ft 就是遗忘门,输出遗忘程度,即 0 到 1 之间的值),丢弃掉需要丢弃的信息(如遗忘门输出 0,则相乘后变成 0,该信息就被丢弃了);该门的示意图如下,该门会读取 ht-1 和 xt 的信息,通过 sigmoid 层输出一个介于 0 到 1 之间的数值,作为给每个在细胞状态 Ct-1 中的数字,0 表示 “完全舍弃”,1 表示 “完全保留”。不同的输入之间是没有联系的。
2024-02-21 17:29:07 991 1
原创 深度学习--基于CNN实现自己数据的训练完整流程
基于上一篇原理的学习,现在基于Pytorch框架实现简单的CNN网络搭建已经完整的训练流程。部分代码在下述展示。
2024-02-21 13:44:56 231
原创 基础神经网络架构一---CNN
如上图,卷积核大小是3x3的,也就是说其卷积核每次覆盖原图像的9个像素,行和列都滑动了3次,一共滑动3x3=9次,得到了一个 3 × 3 的二维数据。举一个标准的卷积运算例子,初始位置的计算过程是:1x1+1x0+1x1+0x0+1x1+1x0+0x1+0x0+1x1=4,详细的就不推导了。所以一幅图像的一个完整的卷积运算过程为:卷积核以一定的间隔滑动,并对所覆盖的区域进行卷积运算得到值 z,直至遍历完整幅图像。对于一个大小为 n 的原图像,经过大小为 f 的卷积运算后,其输出图像的尺寸为。
2024-02-20 21:04:32 640
原创 基于深度学习知识结构的整理--常用方法
理解前向传播、反向传播(Backward Propagation,BP)BP 算法是一种参数学习方法,一般分为两个过程:前向传播(求误差),反向传播(误差回传)。前向是为反向准备好需要用的数值;反向本质是求梯度(求导)的方法。BP算法的一般流程:(1)正向传播FP(求损失):在这个过程中,我们根据输入的样本,给定的初始化权重值W和偏置项的值b, 计算最终输出值以及输出值与实际值之间的损失值.如果损失值不在给定的范围内则进行反向传播的过程;否则停止W,b的更新.
2024-02-20 16:35:26 782
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人