不良人大帅
码龄4年
关注
提问 私信
  • 博客:12,693
    社区:1
    12,694
    总访问量
  • 15
    原创
  • 1,969,401
    排名
  • 138
    粉丝
  • 0
    铁粉

个人简介:一天是不良人,一辈子都是不良人!

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:安徽省
  • 加入CSDN时间: 2020-09-15
博客简介:

qq_50857066的博客

查看详细资料
  • 原力等级
    当前等级
    2
    当前总分
    178
    当月
    0
个人成就
  • 获得186次点赞
  • 内容获得10次评论
  • 获得155次收藏
  • 代码片获得179次分享
创作历程
  • 14篇
    2024年
  • 1篇
    2022年
成就勋章
TA的专栏
  • NLP【深度学习】
    13篇
  • Transfomer
    5篇
  • java
    1篇
兴趣领域 设置
  • 人工智能
    机器学习人工智能深度学习自然语言处理
创作活动更多

2024 博客之星年度评选报名已开启

博主的专属年度盛宴,一年仅有一次!MAC mini、大疆无人机、华为手表等精美奖品等你来拿!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【深度学习】BERT(Bidirectional Encoder Representations from Transformers)

网友:为了解决pretraining 和 fine tuning 的 mismatch问题。微调:预训练模型基础上,添加全连接,softmax。
原创
发布博客 2024.02.07 ·
466 阅读 ·
6 点赞 ·
1 评论 ·
3 收藏

【深度学习】transfomer之Add & Norm 和 Feed Forward

前馈网络(feed-forward network)是一种常见的神经网络结构,由一个或多个线性变换和非线性激活函数组成。它的输入是一个词向量,经过一系列线性变换和激活函数处理之后,输出另一个词向量。作用:使模型卷的更深,因为模型要重复N次,Add操作充分考虑了模型复杂度,抵抗模型深度所导致输入信号的衰减,作用:模仿神经元结构,内置两组Linear数据进行转换。作用:把分散的分布重新拉回到正常的分布区间之中。
原创
发布博客 2024.02.04 ·
832 阅读 ·
2 点赞 ·
1 评论 ·
1 收藏

【深度学习】Transformer之Masked Multi-Head Attention

对应着上面的a和b。
原创
发布博客 2024.02.03 ·
1713 阅读 ·
24 点赞 ·
1 评论 ·
9 收藏

【深度学习】transformer之Multi-head Attention

非线性变换的本质:改变空间上的位置坐标,任何一个点都可以在维度空间上找到,通过某个手段,让一个不合理的点(位置不合理),变得合理。机器学习的本质:在做一件事情,非线性变换(把一个看起来不合理的东西,通过某个手段(训练模型),让这个东西变得合理)多头的个数用h表示,一般h = 8, 我们常用使用的是8头自注意力.2、然后把Z0-Z7拼接起来,再做一次线性变换(改变维度)得到Z。1、对于X,我们将X分成了8块(8头), 得到Z0-Z7。
原创
发布博客 2024.02.03 ·
245 阅读 ·
2 点赞 ·
1 评论 ·
0 收藏

【深度学习】transformer之self-attention

QK相乘求相似度,K里面哪一个对于Q来说是重要的,做一个Scale(作用:未来做softmax的时候避免出现极端情况),然后做softmax得到概率。新的向量表示了K和V(K==V), 然后这种表示还暗含了Q的信息(于Q而言,K里面最重要的信息),挑出了K里面的关键点。Self-Attention 的关键点在于,不仅仅是K、V、Q来源于同一个X,这三者是同源的,通过X找到X里面的关键点。3、Scale+Softmax 进行缩放和softmax。1、Q、K、V的获取,是通过三个参数。
原创
发布博客 2024.01.30 ·
438 阅读 ·
10 点赞 ·
1 评论 ·
4 收藏

【深度学习】transformer之 Positional Encoding

注意:与RNN相比,RNN是一个字一个字的输入,自然每个字的循序关系信息就会保留下来,在Encoder中,一句子的每一个字(词)是并行计算的(下一节解释),所以我们在输入的时候需要提前引入位置信息。这样通过与位置编码(positional encoding)相加,则让输入向量x具有了位置信息。奇数的位置是cos, 偶数的位置是sin。i是维度下标,d是总维度。
原创
发布博客 2024.01.29 ·
931 阅读 ·
25 点赞 ·
0 评论 ·
19 收藏

【深度学习】文章观看顺序

tensorflow安装前向传播与后向传播Embedding之word2vecgensim训练词向量word2vecEncoder&Decoder汉字和数字直接相互翻译BiLSTM介绍K.layers.Masking用法
原创
发布博客 2024.01.23 ·
404 阅读 ·
7 点赞 ·
1 评论 ·
12 收藏

【深度学习】K.layers.Masking用法

K.layers.Masking 的操作主要用于处理可变长度序列数据,而这些序列中,可能存在填充值,这个操作的目的是在模型训练和处理序列数据时,将填充值部分屏蔽掉,已防止填充值对模型的影响。总体而言,K.layers.Masking 操作有助于处理序列数据中的填充值,使得模型能够更有效地学习和处理不同长度的序列。
原创
发布博客 2024.01.23 ·
613 阅读 ·
15 点赞 ·
1 评论 ·
7 收藏

【深度学习】BiLSTM介绍

Bi由两个LSTM层组成,一个从前向后处理序列,一个从后向前处理序列,在处理序列时,每个时间步的输入会被分别传递给两个LSTM层,然后它们的输出会被合并。
原创
发布博客 2024.01.23 ·
2441 阅读 ·
7 点赞 ·
1 评论 ·
18 收藏

【深度学习】前向传播与后向传播

i1与i2分别是两个输入,隐藏层有两个神经元节点h1与h2,偏置项b1与b2,输出层也有 2 个神经元节点o1与o2lh1​w1×i1w2×i2b1lh2​w3×i1w4×i2b1outh1​1e−lh1​1​outh2​1e−lh2​1​lo1​w5×outh1​w6×outh2​b2lo2​w7。
原创
发布博客 2024.01.17 ·
964 阅读 ·
28 点赞 ·
0 评论 ·
20 收藏

人工智能+encoder+decoder+项目实战+我的对应文章讲解+不懂的问我

发布资源 2024.01.17 ·
zip

【深度学习】【项目实战】【机器翻译】Encoder&Decoder汉字和数字直接相互翻译

例如: 数据中全部数字的列表input_texts [‘1’…‘80000’], 那么它的最大长度是5。
原创
发布博客 2024.01.17 ·
485 阅读 ·
10 点赞 ·
0 评论 ·
7 收藏

深度学习项目实战机器翻译Encoder&Decoder汉字和数字直接相互翻译

发布资源 2024.01.17 ·
txt

【深度学习】gensim训练词向量word2vec

!!注意我的环境中,使用pip安装gensim会更改numpy版本,导致tensorflow崩溃,我使用的是conda安装成功的。
原创
发布博客 2024.01.11 ·
556 阅读 ·
8 点赞 ·
0 评论 ·
11 收藏

深度学习gensim训练词向量word2vec

发布资源 2024.01.11 ·
zip

【深度学习】Embedding之word2vec

CBOW神经网络会接收上下文词语,将上下文词语转换为最有可能的目标词。skip-gram是用目标词来预测上下文。
原创
发布博客 2024.01.11 ·
1262 阅读 ·
30 点赞 ·
0 评论 ·
23 收藏

【深度学习】tensorflow的安装

【代码】【深度学习】tensorflow的安装。
原创
发布博客 2024.01.10 ·
765 阅读 ·
11 点赞 ·
1 评论 ·
12 收藏

servlet与jsp综合-图书管理系统

servlet与jsp综合-图书管理系统,写的比较菜,提供一个思路吧。
原创
发布博客 2022.05.09 ·
549 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏
加载更多