词向量与句向量概述

比较常见的词向量表示方式:glove、fasttext、wordRank、tfidf-BOW、word2vec

词向量一般看作是文档特征,不同词向量有不同用法,主要有四类词向量:1.hash算法及衍生;2.BOW算法延伸;3.word2vec延伸;4.LDA主题延伸

    一个词一列向量-----> hash算法--->word2vec(考虑上下文语境)

    一个词一个向量----->BOW算法-->LDA(考虑语言多义)

1.基本概念

一词一列向量hash将词打散成(01010101110)的数值。word2vec在打散的同时定义向量,还考虑了单词上下文语义,doc2vec额外考虑上下语句顺序(单词在段落中顺序),用在段落中比较好

一个词一个值(bow算法+词权重,LDA主题-词语矩阵)两者递进,LDA运算耗时,业界用的较少

2.词向量到句向量

1.如果是一词一列向量,一般用简单相加(相加被证明是最科学)求得句向量

2.如果一词一个向量,就用词权重组合成句向量方式

3.谷歌句向量sen2vec直接将句子变成列向量

句向量:对于短语或句子,将组成单词对应的所有词向量加起来,作为短语向量、句向量

3.词向量的额外效果

消除歧义:LDA主题模型-词句向量

结合上下文语境:word2vec

文档与文档间关系:bow+tfidf

一般来说,hash值效果稍微差一点,其他三类均不错

4.词向量应用方向

文本分类:BOW+TFIDF(TFIDF能较好区分不同文档),word2vec,LDA主题-词语向量(潜在语义发现)

文本相似性:word2vec(结合上下文语境,短文本效果良好)、LDA主题-词语向量(文档语义挖掘)

文本主题建模:LDA模型

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
连续向量和零散向量是在不同上下文中使用的术语。 在引用\[1\]中,提到了词向量概述词向量是一种连续向量表示,它将单词映射到一个多维空间中的向量。这种连续向量表示可以捕捉到单词之间的语义关系,使得计算机可以更好地理解和处理自然语言。 而在引用\[2\]中,提到了支持向量机(SVM)。SVM是一种分类模型,它使用线性或非线性的方式在特征空间中构建一个间隔最大的分类器。在SVM中,特征向量可以被视为零散向量,因为它们通常是由不同的特征组成的,而不是连续的。 因此,连续向量和零散向量是根据上下文和应用领域而有所不同的术语,分别表示在连续空间中表示的向量和由不同特征组成的向量。 #### 引用[.reference_title] - *1* [Word2vec词向量](https://blog.csdn.net/lq_fly_pig/article/details/120592209)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [一种支持向量机的最佳参数组合(C,σ)快速搜索方法与流程](https://blog.csdn.net/weixin_35867979/article/details/117109692)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值