
机器学习
文章平均质量分 88
记忆星尘
这个作者很懒,什么都没留下…
展开
-
Attention Transformer 精简原理总结
一. AttentionAttention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射。在计算attention时主要分为三步,第一步,是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;第二步,使用一个softmax函数对这些权重进行归一化;第三步,将权重和相应的键值value进行加权求和得到最后的attention。二. Self-Attention对于self-attention来讲,Q(...原创 2020-06-21 18:20:41 · 884 阅读 · 0 评论 -
综述 词向量与分布式表示
从古老的one-hot表示法,到大热的Word2vec系列的分布式表示方法,再到现在惊艳的预训练模型ELMo、BERT等,技术迭代迅速,这其中包含许多内容需要我们学习,例如语言模型LM、Transformer、CBOW、SkipGram等等。接下来本文归纳梳理,逐一介绍。目录1、词的表示1、词的表示1.1 离散表示(one-hot representation)把每个...原创 2020-02-21 17:18:55 · 10848 阅读 · 0 评论 -
支持向量机(SVM)常见问题
1 SVM原理SVM是一种二分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。(间隔最大化是它的独特之处),通过该超平面实现对未知样本集的分类。当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机。 当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机。 当训练数据线性不可分时,通过使用核技...转载 2020-01-16 14:34:31 · 12222 阅读 · 1 评论