词嵌入基础及其使用

1.词汇表征

在这里插入图片描述
one-hot,一句话,单词编号是多少,在哪个位置为1,其余为0。这种词表示方法的特点就是,没有保留句子中的上下文关系(任何词之间的内积为0),而这种上下文的关系在语言中是普遍存在的。
在这里插入图片描述
词嵌入应运而生:在左侧一栏是维度,表格中的值是每个词在这个维度(特征)上的取值(-1,+1),越相关,绝对值越大。
在这里插入图片描述
这里常用的可视化方法是t-SNE算法
嵌入(embedding)来源:在一个三维空间中,一个单词orange,对应一个三维特征向量,这个词 就被嵌入到一个点上了。

2. 使用词嵌入

在这里插入图片描述
词嵌入的单词之间的相似性可以帮助提升我们的NER任务,但是如果我们的标记训练集很小怎么办——找到一个已经预训练好的词向量,对任务会有很大提升。(迁移学习)

在这里插入图片描述
上面就是一般使用词嵌入的方法,原则是尽可能找预训练好的词向量作为我们初始词向量。
迁移学习的适用情况:当你从任务A迁移到任务B时,只有A有大量的数据,B中数据很少时,迁移过程才有用。
在这里插入图片描述
还记得之前学习的Siamese网络么,其是将一个人脸编码(f(x(i))、f(x(j)))为一个128维的表示。然后用相似度函数比较两张人脸的编码。但是词嵌入与人脸识别编码不同的是,任个一个照片,都能计算出一个编码,但是我们的词向量是有数量限制的,有一个固定的词汇表。
这里区别的原因&#x

  • 1
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值