Uog Text as Data Lecture 7

Word Vectors & Contextual Word Embeddings

1. Word Vectors and Word meaning

用one-hot 向量表示句子是有歧异的,因为相同word有不同meaning

一个解决方法是WordNet: a knowledge base containing lists of synonym sets and hypernyms (“is a” relabonships).构建知识库。但是知识库也有缺点:比如 即使是近义词之间也有细微差别;WordNet需要每天更新新词汇,很麻烦;需要人力较大

另外一点,如果用one-hot vector表示,向量会是long and sparse的,不容易运算。我们需要short and dense的向量

1) word vectors (也称作word embeddings)

两种方法得到short and dense的词向量:

1. SVD(或LSA,latent semantic analysis潜在语义分析)

每个word用k维表示

“Neural Language Model(比如Skip-grams/CBOW,Glove,ELMo,Bert)

EG.word2Vec重点了解!

2.Contextual word embeddings

与之前Word2vec和Glove不同的是,前者是提前训练好的模型,每个单词都有固定的vector,但它可能不适用于我自己的context。1.每个单词的vector只和自己有关,和上下文语境无关 2.每个单词都有多个意思,但是vector就一个

1)RNNs

2)LSTM: Long Short Term Memory RNN

3)ELMo

4)GPT (transformer architectures)

5)BERT(transformer architectures)

6)GPT-2(transformer architectures)

全部搞懂这些太难了,慢慢学

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值