词嵌入的基本方法

最新推荐文章于 2024-08-15 09:36:21 发布

NLP_小菜鸡

最新推荐文章于 2024-08-15 09:36:21 发布

阅读量1.4k

点赞数 1

文章标签：人工智能深度学习大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chunlinqin/article/details/108956431

版权

词嵌入通过将单词转化为高维空间的向量来捕捉其语义和上下文关系。本文介绍了计数向量化、TF-IDF向量化和基于固定上下文的共现窗口方法，讨论了它们在处理文本数据时的优势和挑战。

摘要由CSDN通过智能技术生成

词嵌入的基本方法

引入问题

引入问题

当您搜索梅西时，我们如何使计算机告诉您有关足球或罗纳尔多的信息？您如何使计算机理解“苹果是美味的水果”中的“苹果”是可以食用的水果，而不是公司的水果？

上述问题的答案：为单词创建表示形式，以捕获单词的含义，语义关系以及所使用的不同上下文类型。

基本概念

词嵌入是一种表示文本的方式，其中词汇中的每个词都由高维空间中实数值向量表示，为了具有相似含义的单词在向量空间中具有相似表示（在向量空间中接近）的方式学习向量。

基于频率的词嵌入

计数向量化
TF-IDF向量化
具有固定上下文的共现窗口

计数向量化

计数向量化模型从所有文档中学习词汇，然后通过计算每个单词出现的次数对每个文档建模。例如，假设我们有D个文档，T是词汇量中不同单词的数量，那么计数向量矩阵的大小将由D * T给出。让我们用以下两个句子举例：
D 1: “The cat sat on the hat”
D 2: “The dog ate the cat and the hat”

从这两个doc中，我们得到的词汇如下：
{ the, cat, sat, on, hat, dog, ate, and }

D = 2, T = 8
向量化

上述矩

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。