lucene tvx tvd tvf 文件

        我们平时看到的文件,其本质上是有词组成的,我们可以看做是词的集合,当我们把相同的词就可以看做是一个词的向量了。

       这里的tvx tvd tvf 就是以这种形式表示doc的:

        tvx : doc的数量,以及每个doc 在 tvd 以及 tvf 中开始的位置。

 

        tvd : 每个doc的域信息: 有多少个域,具体是那几个域,每个域向量在tvf文件中的位置,

 

        tvf  : 每个doc 的每域的 向量集合 ,向量集合中的每个元素就是一个 term:  term文本,次数,位置等信息

 

 

这三者之间的关系,我们还是引用告诉的总结:

http://blog.csdn.net/forfuture1978/archive/2009/12/10/4976793.aspx

 

 

 

我们最后来看看源代码

 

 

 

1  首先在tvx 文件中写入  tvd 和tvf  开始的位置

 

2   在tvd中写入当前doc的字段的个数,然后遍历所有的字段,在tvd 中,写入每个字段的term 数目,已经每个term 具体信息在tvf中的位置, 最后写tvf信息,遍历每隔term ,写入每个term 信息。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值