NLP读论文
文章平均质量分 69
NNNNwang
这个作者很懒,什么都没留下…
展开
-
【NLP论文阅读】-Building End-to-End Dialogue Systems Using Generative Hierarchical Neural Network Models
该表中MAP是HRED-bid +SubTle的结果,可看出MAP回答更加通用性,产生这种现象的原因:由于数据稀缺,模型产生最常见的回答语句。同时回答通常与U1,U2采用相同的标点符号和代词2,阻碍了回答的多样性和主题性。产生这种现象的原因是:基于 MAP (beam search)输出的指标(如余弦相似度、BLEU、Levenshtein 距离)将主要偏向于输出与测试语篇中相同数量的标点符号和代词的模型,而不是相似语义内容(如名词和动词)的模型。预训练对模型的优化效果比改变网络结果的优化效果更大。原创 2023-11-01 17:05:25 · 104 阅读 · 0 评论 -
【NLP论文】——Attention is all you need 注意力
相较于单次使用model维度的参数query,key,value输入到attention function中,使用h次不同的,学习过的线性计算query,value,key到d_k,d_k,d_v维度,更加有效。Q,K,V分别为query,key,value的矩阵。Multi-head attention 允许模型关注来自不同位置的表示不同子空间的信息。因为当d_k 增大时,Q*K增大,使得softmax的梯度逐渐变小,因此使用。查询和键使用兼容性函数计算值的权重,值的加权和构成输出。原创 2023-10-29 17:55:59 · 63 阅读 · 0 评论