Week3-3The vector space model

原创 2015年11月17日 17:01:33

Document similarity

  • Used in IR to determine which document(d1 or d2) is more similar to a given query q(the documents and queries are in the same space)
  • The angle, or the cosine of the angle is used as a proxy of the similarity of the underlying documents
    这里写图片描述

Cosine similarity

σ(D,Q)=(D,Q)DQ

A variant:Jaccard coeffecient

σ(D,Q)=DQDQ

Example

  • D = “cat, dog, dog” = <1,2,0>
  • Q = “cat, dog, mouse, mouse” = <1,1,2>

  • similarity

    σ(D,Q)=1×2+2×1+0×212+22+0212+12+22=3300.55

Distributional similarity

  • Two words that appear in similar contexts are likely to be semantically related

You will know the word by the company that it keeps.

The context

这里写图片描述

版权声明:本文为博主原创文章,未经博主允许不得转载。

信息检索——向量空间模型(Vector Space Model)

TF: tf 即 term frequency, 表示一个 term t 出现在 document d 中的次数,这是文档中一个很重要的概念。出现次数更多意味着重要程度越高,但是需要注意的是,相关度...

gensim学习笔记(一)- Vector space model

gensim是基于python的自然语言处理库,可以自动的从文档中提取特征,语义信息等等。包括向量空间模型,word2vec, LSI, LDA, 转换之类的操作,非常方便。下面总结一些其基本用法,具...

向量空间模型实现文档查询(Vector Space Model to realize document query)

xml中文档(query)的结构: CIRB010TopicZH006 科索沃難民潮 查詢科索沃戰爭中的難民潮情況,以及國際間對其採取的援助。 相關文件內容包括科省難民湧入的地點、人數,受安置...

VSM(Vector Space Model)常用向量值计算:TF-IDF

1)TF-IDF TF(只针对一篇文章计算): TF(t, d) = 某个词 t 在【本篇文章 d 】中的出现次数; 由于文章有长有短,最好进行TF标准化: TF(t, d) = 某个词 t ...
  • mmc2015
  • mmc2015
  • 2014年12月30日 10:14
  • 795

Vector Space Model (向量空间模型)

向量空间模型(vector space model)在信息检索
  • gcyxf
  • gcyxf
  • 2014年09月22日 20:22
  • 2787

向量空间模型(VSM:Vector space model)

向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理。 假设共有十个词:w1,w2,....
  • surehao
  • surehao
  • 2014年02月21日 15:31
  • 1801

Lucene学习之计算相似度模型VSM(Vector Space Model)

最近想学习下Lucene ,以前运行的Demo就感觉很神奇,什么原理呢,尤其是查找相似度最高的、最优的结果。索性就直接跳到这个问题看,很多资料都提到了VSM(Vector Space Model)即向...

#“Machine Learning”(Andrew Ng)#Week 3_2:Logistic Regression Model

1、Cost Function And the question that I want to talk about is given this training set, how do we cho...

麦考瑞大学网络安全课件 Week 3

  • 2012年01月20日 11:43
  • 263KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Week3-3The vector space model
举报原因:
原因补充:

(最多只允许输入30个字)