向量空间模型(vsm) 简介

 一直在做自然语言处理相关的应用开发工作,一直没能抽时间做相关的系统组件或是算法分析工作,最近有时间,将自然语言处量相关的分词、 搜索、各种计算统计分析模型都看了下,收获不少,因时间关系,就以自己的见解来解释下好像挺复杂的vsm吧,其实超简单。


   1、  vsm,即向量空间模型(vector space model)的意思,本身是一种数学模型,来解决NLP(自然语言处理的简称,Nature Language Processing)遇到的问题,主要是相似性计算,应用方向为数据分类等,应用范围很广,比如爬虫中的相似性网页去重、文本信息分类等。


  2、  以文本分类为例,来判断网页A和网页B是不是属于新闻类的内容


         这样的情景对于爬虫来说是经常见的,比如抓取的很多网页,尤其是在内容方面,是属于哪一类的网页,如新闻类、体育类等等。对于像google、百度总体上都是采用这种模型来进行相似性计算,从而得到A、B的相似性,进而达到分类的目的。具体做法如下:

      (1)向量空间模型的建立。vsm的应用是建立在大量的训练集为基础,在新闻类的训练文本基础之上,得到n个关键词的特征(包括关键词word,以及对应的权重weight)集合(t1,weight1),(t2,weight2),(t3,weight3)...(tn,weightn),以此建立n维特征向量空间。

      (2)

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值