NLP
twilight0402
以铜为镜,可以正衣冠;以史为镜,可以知兴替;以人为镜,可以明得失
展开
-
Transformer 结构分析
self-attetion1. 输入X=EmbeddingLookup(X)+PositionalEncodingX.shape==(batch_size,seq_len,embedding_dim)X = EmbeddingLookup(X) + PositionalEncoding \\X.shape == (batch\_size, seq\_len, embedding\_dim)X=EmbeddingLookup(X)+PositionalEncodingX.shape==(batch原创 2020-07-31 21:23:48 · 317 阅读 · 0 评论 -
关于 Positional Encoding的理解
encodingSinusoidal Position EncodingPE(pos,2i)=sin(pos100002idmodel)PE(pos,2i+1)=cos(pos100002idmodel)\begin{aligned}P E_{(p o s, 2 i)} &=\sin \left(\frac{p o s}{10000^{\frac{2 i}{d_{\text {model}}}}}\right) \\P E_{(p o s, 2 i+1)} &=\cos \le原创 2020-07-31 21:23:07 · 2014 阅读 · 0 评论 -
Dropout原理分析
工作流程dropout用于解决过拟合,通过在每个batch中删除某些节点(cell)进行训练,从而提高模型训练的效果。通过随机化一个伯努利分布,然后于输入y进行乘法,将对应位置的cell置零。然后y再去做下一层的前向传播。rj(l)∼Bernoulli(p)y~(l)=r(l)∗y(l)zi(l+1)=wi(l+1)y~l+bi(l+1)yi(l+1)=f(zi(l+1))\begin{aligned}r_{j}^{(l)} & \sim \operatorname{Bernoulli原创 2020-07-31 21:21:55 · 560 阅读 · 0 评论 -
深度学习优化器对比--BGD/SGD/MBGD/MSGD/NAG/Adagrad/Adam
指数加权平均 (exponentially weighted averges)先说一下指数加权平均, 公式如下:vt=βvt−1+(1−β)θtv_{t}=\beta v_{t-1}+(1-\beta) \theta_{t}vt=βvt−1+(1−β)θtθt\theta_tθt 是第t天的观测值vtv_tvt 是用来替代θt\theta_tθt的估计值,也就是加权平均值β\betaβ 超参数设 β=0.9\beta = 0.9β=0.9 , 那么公式可以化简为:v100原创 2020-07-27 01:03:03 · 448 阅读 · 0 评论 -
编辑距离(Minimum Edit Distance)
编辑距离(Minimum Edit Distance,MED),也叫 Levenshtein Distance。他的含义是计算字符串a转换为字符串b的最少单字符编辑次数。编辑操作有:插入、删除、替换(都是对a进行的变换)。用lev(i, j) 表示 a的前i个单词和 b的前j个单词的最短编辑距离(即从后往前)。可以分为以下几种情况:i == 0 或 j == 0lev(i,j)=max(i,j)lev(i, j) = max(i, j)lev(i,j)=max(i,j)i,j 不为0, 且原创 2020-07-27 01:01:00 · 384 阅读 · 0 评论 -
词云(WordCloud)
WordCloud的参数:font_path:可用于指定字体路径width:词云的宽度,默认为 400;height:词云的⾼度,默认为 200;mask:蒙版,可⽤于定制词云的形状;min_font_size:最⼩字号,默认为 4;max_font_size:最⼤字号,默认为词云的⾼度;max_words:词的最⼤数量,默认为 200;stopwords:将被忽略的停⽤词,若不指定则使⽤默认停⽤词词库;background_color:背景颜⾊,默认为 black;mode:默原创 2020-07-27 01:00:12 · 8654 阅读 · 1 评论