词嵌入基础及其使用

最新推荐文章于 2024-04-20 10:39:51 发布

LotusQ

最新推荐文章于 2024-04-20 10:39:51 发布

阅读量1.8k

点赞数 1

分类专栏：炼丹笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30057549/article/details/103342841

版权

文章目录

1.词汇表征

在这里插入图片描述
one-hot，一句话，单词编号是多少，在哪个位置为1，其余为0。这种词表示方法的特点就是，没有保留句子中的上下文关系（任何词之间的内积为0），而这种上下文的关系在语言中是普遍存在的。

词嵌入应运而生：在左侧一栏是维度，表格中的值是每个词在这个维度（特征）上的取值（-1，+1），越相关，绝对值越大。
在这里插入图片描述
这里常用的可视化方法是t-SNE算法。
嵌入（embedding）来源：在一个三维空间中，一个单词orange，对应一个三维特征向量，这个词就被嵌入到一个点上了。

2. 使用词嵌入

在这里插入图片描述
词嵌入的单词之间的相似性可以帮助提升我们的NER任务，但是如果我们的标记训练集很小怎么办——找到一个已经预训练好的词向量，对任务会有很大提升。（迁移学习）

在这里插入图片描述
上面就是一般使用词嵌入的方法，原则是尽可能找预训练好的词向量作为我们初始词向量。
迁移学习的适用情况：当你从任务A迁移到任务B时，只有A有大量的数据，B中数据很少时，迁移过程才有用。

还记得之前学习的Siamese网络么，其是将一个人脸编码（f(x⁽ⁱ⁾)、f(x^(j))）为一个128维的表示。然后用相似度函数比较两张人脸的编码。但是词嵌入与人脸识别编码不同的是，任个一个照片，都能计算出一个编码，但是我们的词向量是有数量限制的，有一个固定的词汇表。
这里区别的原因&#x

最低0.47元/天解锁文章

关注

1
点赞
踩
29

收藏

觉得还不错? 一键收藏
2
评论
词嵌入基础及其使用

文章目录1.词汇表征2. 使用词嵌入3. 词嵌入的特性4. 嵌入矩阵5.学习词嵌入6. Word2Vec7. 负采样8.GloVe词向量9. 情感分类10.词嵌入除偏1.词汇表征2. 使用词嵌入3. 词嵌入的特性4. 嵌入矩阵5.学习词嵌入6. Word2Vec7. 负采样8.GloVe词向量9. 情感分类10.词嵌入除偏...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。