词嵌入 Embedding: 从 Word2vec 到 Bert

本文介绍了词嵌入的发展历程,从Word2vec的Hierarchical softmax和Negative sampling,到ELMo的Highway layer和Projection layer,再到BERT的Transformer、Pooler和Fine tune过程。BERT作为预训练模型,通过多层双向Transformer,改善了词向量的表示,且能在下游任务中通过Fine tune进行优化。
摘要由CSDN通过智能技术生成

Bert 的第一步是文字向量化。文字向量化从 Word2Vec 开始,逐渐走向成熟。

 

Word2vec

参考资料

『Distributed Representations of Sentences and Documents』
      贡献:在前人基础上提出更精简的语言模型(language model)框架并用于生成词向量,这个框架就是 Word2vec
『Efficient estimation of word representations in vector space』
      贡献:专门讲训练 Word2vec 中的两个trick:hierarchical softmax 和 negative sampling
优点:Word2vec 开山之作,两篇论文均值得一读
 Xin Rong 的论文:『word2vec Parameter Learning Explained』:
!重点推荐!

 

Hierarchical softmax

参数优化目标函数为:

 [Y. Goldberg, etc.] 或  [X. Rong]

其中  表示输入词序列的第1个词, 表示词序列下标, 表示词  的语境(上下文 context)。

 

Hierachical softmax 借鉴了 Haffman encoding 的思想,压缩了待训练参数数量,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值