词嵌入的基本方法

词嵌入通过将单词转化为高维空间的向量来捕捉其语义和上下文关系。本文介绍了计数向量化、TF-IDF向量化和基于固定上下文的共现窗口方法,讨论了它们在处理文本数据时的优势和挑战。
摘要由CSDN通过智能技术生成

引入问题

当您搜索梅西时,我们如何使计算机告诉您有关足球或罗纳尔多的信息?您如何使计算机理解“苹果是美味的水果”中的“苹果”是可以食用的水果,而不是公司的水果?

上述问题的答案:为单词创建表示形式,以捕获单词的含义,语义关系以及所使用的不同上下文类型。

基本概念

词嵌入是一种表示文本的方式,其中词汇中的每个词都由高维空间中实数值向量表示,为了具有相似含义的单词在向量空间中具有相似表示(在向量空间中接近)的方式学习向量。

基于频率的词嵌入

  1. 计数向量化
  2. TF-IDF向量化
  3. 具有固定上下文的共现窗口

计数向量化

计数向量化模型从所有文档中学习词汇,然后通过计算每个单词出现的次数对每个文档建模。例如,假设我们有D个文档,T是词汇量中不同单词的数量,那么计数向量矩阵的大小将由D * T给出。让我们用以下两个句子举例:
D 1: “The cat sat on the hat”
D 2: “The dog ate the cat and the hat”

从这两个doc中,我们得到的词汇如下:
{ the, cat, sat, on, hat, dog, ate, and }

D = 2, T = 8
向量化

上述矩

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值