信息检索中的特征空间变化

一、背景及概述

    对于一篇文章或者是一段文字信息,我们想要获取其中的关键信息,如果是中文,我们首先要对其进行分词的预处理,中文分词有很多开源的技术,如python就有结巴模块用来做中文分词,网上有很多博客详细讲解,这边不是我们这部分工作的重点内容,在这里就不详细讲解了。(关于python中结巴分词)通过对连续的语义的分词我们会得到由多个独立词语构成的信息,这里就需要合适的信息检索模型,来判断两个不同的文章或语句信息之间的相似程度了,常用的信息检索模型分为三类,集合论模型,代数模型以及概率模型。以代数模型为例,向量空间模型是代数模型的一种,这种模型是将文档表示成空间向量,通过计算向量之间的余弦相似度来比较两篇文档之间的相关程度,然而这种模型建立出来的空间向量维度十分高,最简单的向量空间模型中,加入词典的大小为N维,那么一篇文档的向量也是N维,M篇文章就会构成一个M*N维度的矩阵,但是在在这个矩阵中又有很多值为0的特征,非常冗余;因此可想而知,用如此高纬度的向量计算是多么麻烦。在这类问题的基础上,在信息检索的领域内,我们需要做一些特征空间的变化,来简化运算以及提高效率,并且实验也证明,通过一定的特征空间变化之后得到的效果要优于直接运算。

二、特征空间变化主要方法简介

    常用的特征空间变化有,奇异值分解SVD,隐语义分析LSA,PLSA主题模型,LDA主题模型。

    简单介绍一下,奇异值分解是线性代数中一种重要的矩阵分解

    矩阵A可以理解为我们的M个信息段构成的M*N的矩阵,对于矩阵U是一个M*M的矩阵,这个矩阵中所有的向量是正交的,Σ是一个N*M的矩阵,而且还是个对角阵,即除了对角线上的元素都为0;V'是一个N*N的矩阵,里面的向量也都是正交的。我们可以将Σ理解成奇异值矩阵,其对角线上的每一个元素是奇异值,并且在这个矩阵中对角线上的元素是按照奇异值的大小排列的,同时,前百分之十以内的奇异值在整个运算中占的比重几乎是全部,因此我们可以用前r个奇异值和两个正交矩阵的相乘结果来近似原本的矩阵


    易理解,r越接近N&#x

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值