nlp
chencas
这个作者很懒,什么都没留下…
展开
-
NLP --- >对抗学习:从FGM, PGD到FreeLB
背景我们知道,对抗学习能够得到更加鲁棒的神经网络结构。通过对训练样本添加一个较小的扰动,然后将其用于模型训练,能够有效地防范这类的攻击,该方法开始被提出用于自动驾驶等,后面被用于自然语言处理中,同样大幅提高模型的结果。本篇文章提出一种新的对抗训练算法,FreeLB(Free Large-Batch),通过对词向量添加一个对抗扰动,并且最小化添加扰动样本的损失。该方法利用了最近提出的 “free...原创 2019-12-18 17:51:22 · 8438 阅读 · 1 评论 -
NLP --- >word2vec
概述Word2vec在NLP里占有非常重要的地位,是很多深度学习技术的基础,那它解决了什么问题?是什么?为什么能解决呢?下面详细地介绍各个部分。Word2vec解决什么问题?我们知道,在一般的机器学习中,数据分为两大类,一类是数值型,另一类是字符型数据:对于数值型数据,能够有效地处理,可以直接用于数据拟合,回归分析中;对于字符型数据,如常见的性别(男,女),省份等,我们会把他们one-hot...原创 2019-12-08 19:59:06 · 161 阅读 · 0 评论 -
NLP --- > The Illustrated Transformer (翻译)
transformRef: https://jalammar.github.io/illustrated-transformer/自注意模型细节:输入词向量矩阵,n*e,其中n为词的个数,e为向量长度设定三个参数矩阵分别为WQ,WK,WVW^Q,W^K, W^VWQ,WK,WV,为了减少参数,该三个矩阵共享参数将三个矩阵分布为词向量矩阵相乘,得到Query, Key, Value m...转载 2019-12-07 18:14:44 · 224 阅读 · 0 评论 -
NLP --- > LDA
LDA共轭先验分布在贝叶斯概率理论中,如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布Beta分布是二项式分布的共轭先验分布,而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。共轭的意思是,以Beta分布和二项式分布为例,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta分布...原创 2019-07-07 19:29:20 · 405 阅读 · 0 评论 -
NLP --- > LDA-EM-SVM
algorithm-LDA-EM-SVM文章目录algorithm-LDA-EM-SVMEM混合高斯模型SVM原理推导定理引入对偶算法的优点:求解 SMO算法LDALDA与PLAS区别求解BFGS 算法标签(空格分隔): EM LDA SVM在此输入正文EMincomplete data distributionP(Y∣θ)P(Y|\theta)P(Y∣θ)complete da...原创 2019-07-07 15:11:49 · 298 阅读 · 0 评论