信息检索 笔记(2)

第二节课笔记
在第一节课之中讲了
Boolean(exact match)
Statistical language models

这节课要将讲的是:
vector space
Latent Semantic indexing
在这里插入图片描述

所遇到的问题:如何选取基向量。
维度。幅值。
在这里插入图片描述
在线性独立的时候,基向量意味着不会包含其他维度的信息。
当有的向量不线性独立的时候,就会出现信息的冗余。
在这里插入图片描述
对于模型来讲,如何确定它的基向量?
特征选择问题。
用基向量来表示document。
不管是document还是query,都是指文本特征,text。通常从语义的理解对文本的表示。
用核心概念来表示文本。
但是难点是怎么去找到核心概念:
“but difficult to determine”

在这里插入图片描述
引申出第二种方式,直接用出现的词语,即"term":
问题是:not at all ortihogonal 不能保证其是正交的。
会有new term出现。维度特别大。
在这里插入图片描述
在这里插入图片描述
ues terms 作为基向量。
注意是term,不是word,有一个停用词列表,比如of 在语义分析的时候不用。
怎样讲选择的term query document映射到向量空间中?
注意:只是说要得到映射表。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如何确定赋值(系数)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
那么如何计算相似度?
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
方法2,但是复杂度较高。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以用来降维。
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值