自然语言处理NLP
RealDuxy
在路上
个人微信:duxiyang430105
欢迎同行交流
展开
-
Transformer的简单总结
1. encoder1.1 词嵌入除了在最底层的编码器的输入来自词嵌入的词向量,其余的解码器的输入则来自下一层解码器的输出。对于每个编码器,接收的是一个向量列表。比如词向量维512维,一句话有30个词,输入便是(30*512)1.2 self-attention 自注意力层每个单词的输入路径不同。512维词向量,10个词,经过三个权重层WQ,WK,WVW_Q,W_K,W_VWQ,WK,WV,每个词分别生成query vector, key vector, value vector, 这三原创 2020-10-14 16:02:18 · 619 阅读 · 0 评论 -
指针生成网络(PGN)的简单总结
基于RNN的seq2seq:好处: 用于文本生成,可以用于抽象总结。坏处: 不准确的复制事实细节;无法处理OOV;生成文本有重复倾向;长文本下效果效果倾向于language modelPGN分析:通过指针从原文复制单词,有效处理OOV,保留产生新词的能力。通过COVERAGE机制对重复单词给予惩罚。1. seq2seq with attention 过程input x=(x1,x2,...,xTx)input \ x = (x_1,x_2,...,x_{T_x})input原创 2020-10-14 15:34:42 · 2245 阅读 · 2 评论 -
条件随机场CRF(一): 条件随机场的三种表示
目录1. 条件随机场简述1.1 条件随机场定义2. 条件随机场的参数化形式(LinearCRF为例)3. 条件随机场简化形式4. 条件随机场的矩阵形式1. 条件随机场简述1.1 条件随机场定义设X,Y为两个随机变量,若由Y构成的无向图(随机变量为结点,变量之间的依赖关系为边)满足全局马尔科夫性(即构成马尔科夫随机场),即P(Yv∣X,Yw:w≠v)=P(Yv,Yw:w∼v)P(Y_v|X,Y_w:w\neq v) = P(Y_v,Y_w : w \sim v )P(Yv∣X,Yw:w=v)原创 2020-08-28 17:47:53 · 449 阅读 · 2 评论 -
隐马尔科夫模型(HMM)理解与总结
目录1. HMM模型概念1.1 HMM定义1.2 HMM实例2 HMM的三个问题:2.1 计算观察序列的概率2.1.1 前向算法2.1.2 后向算法2.1.3 利用前向概率和后向概率计算得到的重要的概率公式2.2 求解HMM参数2.2.1 已知观测序列和隐藏序列——最大似然2.2.2 已知观测序列,隐藏序列未知——鲍姆-韦尔奇算法2.3 解码隐藏序列——维特比算法本文系个人学习总结,为模型基础原理的概念性总结,不涉及数学原理即详细推导,若有详细了解需要,请参照文章末尾参考资料。1. HMM模型概念HM原创 2020-08-27 16:41:46 · 1433 阅读 · 0 评论 -
word2vec 参数详解
Word2Vec1. 背景知识2. CBOW, Skip-Gram介绍2.1 以单个词语为输入的情况2.2 CBOW2.3 Skip-Gram3. 优化计算效率的两种方法3.1 Hierarchical Softmax3.2 Negative Sampling1. 背景知识在NLP中,我们处理文本的最细粒度的是词语,所以我们需要将词语转换成向量的形式以进行各式各样的计算。最初也是最简单的一种词向量表达方式是 One-hot 编码词语,例如:text: I love youVocab: { I: 0原创 2020-08-17 12:59:09 · 2041 阅读 · 0 评论