词嵌入Word representation

一种单词的表现方法,这个算法能够自动进行以下类比,man对应woman, King对应queen

one-hot模型的缺点,体现了单个词的表示但没有体现单词之间的联系,泛化能力弱因为独热向量间的乘积为0

t-SNE算法,映射到低维空间

如何使用单词嵌入来进行学习迁移:
第一步是从大量的文本语料库学习单词嵌入,或者可以从网上下载已经训练好的单词嵌入
然后可以把这些单词嵌入迁移到有着更小的已标记训练集的任务上然后用这个300维的词嵌入来代表单词,好处是你可以使用相对较低维的特征向量
最后,当你在新任务上训练你的模型时可以选择谁的去继续微调参数,继续用新数据调整单词嵌入,实际上只有上一步具有相当大的数据集时,才会执行此操作

编码和嵌入的意思相近

使用余弦相似度和欧氏距离来看相似性

Word2vec

在这个skip-gram模型中,我们要做的就是找出一些语境词到目标词的配对从而建立监督式学习的问题,随机选一个词作为语境词,然后我们要做的就是在某个窗口中随意的挑出另外一个单词,比如加上减去语境词前后十位的单词,然后我们选择它们作为目标词
使用10000词汇量的词汇表,要解决的基本的监督式学习问题是我们想去学习语境词c的映射,比如,单词orange对应着的一些目标单词,我们暂且叫它t,t有可能是单词juice或者是其他词,这就是我们需要学习的,从输入x到一个不确定的y的映射。
为了表示输入的单词,比如orange,你可以对它使用one-hot编码,我们把它表示成一个带有c下标的字母O,这样这个语境词就对应了一个one-hot向量。你可以用带c下标的O乘以嵌入词矩阵E就得到了这个作为输入的语境词的嵌入向量,再使用softmax函数

GloVe词向量

RNN情感分类 

消除偏见

​​​​​​​

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值