![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
文章平均质量分 51
sunsiney
这个作者很懒,什么都没留下…
展开
-
Bert
自我监督式学习:它可以做两件事情:预测被遮盖的词汇masked token prediction预测下一个句子next sentence prediction(效果不好)它可以像人体的干细胞一样 分化成各种类型 做不同的任务 对项目进行微调fine tune。它的结构是transfomer里面的encoder部分bert使用情感分析:bert橙色块内的参数不是进行随机初始化,而是根据已经训练好的可以进行句子填空的模型参数进行初始化,得到比随机初始化更优的结果。输入序列和输出序列一一对应:原创 2021-04-19 15:07:05 · 101 阅读 · 0 评论 -
transformer
解决问题:用于seq2seq结构,适合处理输出数据长度不确定的问题。基本结构原创 2021-04-17 16:22:19 · 61 阅读 · 0 评论 -
self-attention自注意力机制
基于李宏毅课程解决问题:序列输入和序列输出问题,对于输入不限制于考虑窗口内几个单元的联系,而是考虑整个输入序列各单元的联系。相关知识:input:一个向量或者是一组向量output:针对序列输入,根据输出不同可以把问题归类为三类输入输出一一对应,如词性标注问题。输出为类别标签,归类问题,如情感分类。输出长度不确定,如翻译问题。注意力得分及当前单元和其他输入单元关联程度的计算方法:dot-product或者additive原理在模型中使用示例如下,FC为全连接层。如何计算各输入单原创 2021-04-17 09:57:43 · 318 阅读 · 0 评论