java倒排索引文档集词典_倒排文件索引(Inverted File Index)的建立

建立索引

目前主流的索引技术有三种:倒排文件、后缀数组和签名。后缀数组的方法虽然快,但是其维护困难,代价相当高,不适合做引擎的索引。签名是一种很好的索引方式,但倒排文件的速度和性能已经超过了签名。倒排文件是一种在各大搜索引擎中被主要使用的索引的方式,并且它也是搜索引擎中一个核心的技术。

5.2.1  倒排文件索引(Inverted File Index)的建立

倒排索引文件是一种面向单词的索引机制,每个文件都可以用一系列关键字来表示。一个典型的倒排索引主要由词汇表(也叫索引项)和事件表(也叫文件链表)两部分组成。词汇表是用来存放分词词典的,通常称存放词汇表的文件为索引文件;事件表是用来存放这个文件中对应词汇表中词汇出现的位置和次数的,通常称存放出现位置的文件为位置文件。

1.倒排文件的建立

(1)顺排文件的建立

假设有网页P1,P2,……,Pn,给每个网页文件赋予一个编号Pid,给每个关键字赋予一个编号keyi,假设key是网页文件中的一个关键字,ni表示该关键字在网页文件中出现的次数,表示该关键字在网页文件中的位置信息。首先将网页内容切分成一系列关键字:Pi={Key1,key2,…,keyn}。建立以下顺排文件:

P1={[n1,Key1(hit1,hit2,…,hitn)],…,[nx,keyi(hit1,hit2,…,hitx)] }

P2={[n1,Key1(hit1,hit2,…,hitn)],…,[nn,keyk(hit1,hit2,…,hitn)] }

…………

Pn={[n1,Key1(hit1,hit2,…,hitn)],…,[ny,keyj(hit1,hit2,…,hity)] }

例如,对以下两段文字进行顺排文件操作。

“随着经济的发展,人们对生活的品质要求越来越高。特别是在视觉欣赏方面,更是追求精益求精。如何把模糊的图像变得清晰,把暗淡的色彩变得色彩鲜艳是一个非常值得研究的课题。并且在数字电视、扫描仪、医疗图像、计算机视觉、卫星监测、航空摄像等方面对图像的清晰度有着广泛的需求。目前基于网格和密度的聚类方法已经渗透到各个领域,且得到了令人意想不到的效果。本文是将基于网格和密度的聚类方法运用到模糊图像中,从而对图像进行增色处理。”

“数字图像处理又称为计算机图像处理,它是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。数字图像处理最早出现于20世纪50年代,当时的电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息。数字图像处理作为一门学科大约形成于20世纪60年代初期。早期的图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。”

假设第一段文字是一个网页P1的全部内容&

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值