深度学习
qq_33314743
这个作者很懒,什么都没留下…
展开
-
命名实体识别
LSTM+CRF原创 2021-03-29 19:44:58 · 101 阅读 · 0 评论 -
知识蒸馏
原创 2020-09-14 21:53:23 · 119 阅读 · 0 评论 -
gbdt 梯度下降梯度爆炸梯度消失
GBDT算法原理与系统设计简介.pdf 中原创 2019-08-07 15:57:36 · 162 阅读 · 0 评论 -
注意力机制公式
原创 2020-07-16 17:01:03 · 4933 阅读 · 2 评论 -
深度学习相关知识点
dropout什么时候用原创 2020-05-05 21:40:30 · 159 阅读 · 0 评论 -
生成式和判别式模型
判别式条件概率CRF,生成式联合概率HMM原创 2019-09-16 20:33:51 · 72 阅读 · 0 评论 -
基础BN LN amada auc roc 范式 正则化 mle map
基础BN LN amada auc roc 范式原创 2020-04-10 10:41:43 · 146 阅读 · 0 评论 -
iteration 和 epoch hidden_size
深度习经看epoch、 iteration batchsize面按自理解说说三区别:(1)batchsize:批深度习般采用SGD训练即每训练训练集取batchsize本训练;(2)iteration:1iteration等于使用batchsize本训练;(3)epoch:1epoch等于使用训练集全部本训练;举例训练集1000本batchsize=10:训练完整本集需要:100 it...原创 2020-03-11 21:57:35 · 262 阅读 · 2 评论 -
对话模型
看看原创 2020-03-09 22:44:48 · 165 阅读 · 0 评论 -
分类
没看明白的地方:fasttext—词向量最后求平均吗?softmax如何高效?原创 2020-03-09 22:42:45 · 62 阅读 · 0 评论 -
RNN LSTM等等基础
sigmoid s型函数,有两类 logistic 和 tanhlogistic= =1/1+exp(-x)tanh(x)= exp(x)-exp(-x)/exp(x)+exp(-x)原创 2020-03-08 18:32:01 · 87 阅读 · 0 评论 -
几篇文章和源码
https://weibo.com/fly51fly?refer_flag=0000015010_&from=feed&loc=nickname&is_all=1《 FreeLB: Enhanced Adversarial Training for Language Understanding》(ICLR 2020) GitHubhttps://github.com/z...原创 2020-02-19 17:34:13 · 178 阅读 · 0 评论 -
t-cvae和tgvae
待发原创 2019-12-18 15:53:27 · 223 阅读 · 0 评论 -
elbo和kl散度
kl散度https://www.cnblogs.com/hxsyl/p/4910218.html一、第一种理解 相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain)。 KL散度是两个概率分布P和Q...转载 2020-03-10 16:59:21 · 870 阅读 · 0 评论 -
persona chat
个性聊天Exploiting Persona Information for Diverse Generation of ConversationalResponses原创 2019-09-10 17:53:45 · 625 阅读 · 0 评论 -
wx+b
@wx+bTOCWx+B使得 x[0.1 -0.5 0.8 3…] 映射到一个 W_DIM(W为W-dimX-dim的矩阵) 维度的logit向量上[-1,0.5,3,。。。。] 然后用softmax、logistic回归等可以归一化成【0,1】之间的数值当X是一个NX-dim矩阵的时候,WX=W-dimN的矩阵# 欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdo...原创 2019-07-25 16:37:28 · 687 阅读 · 0 评论