2011年06月_benbendy1984

原创 lemur 使用

我主要想研究下 indri ，所以就只研究这快下载源代码后，直接configure ;make 就可以了建立索引：配置文件 /home/admin/indri/buildindex/test/index /home/admin/indri/buildindex/test

2011-06-30 16:26:00 1821

原创 lucene tvx tvd tvf 文件

我们平时看到的文件，其本质上是有词组成的，我们可以看做是词的集合，当我们把相同的词就可以看做是一个词的向量了。这里的tvx tvd tvf 就是以这种形式表示doc的： tvx : doc的数量，以及每个doc 在 tvd 以及 tvf 中开始的位置。 tvd : 每个doc的域信息：有多少个域，具体是那几个域，每个域

2011-06-27 16:26:00 1621

原创 lucene frq 文件

lucene 的frq 存放的是搜索引擎中的doclist，主要保存了docid以及该id 出现的次数，当然为了加快检索，里面还建立的一个跳排表，我们这些进行详细介绍。一 docid 和频率如果简单的来想，这块的内容可以很简单，就是一个 (docid+ freq ) 一个序列 : docid1, freq1 ,docid

2011-06-27 11:06:00 1767

原创 lucene tis和 tii 文件

在lucene 中使用 tis 保存了所有term的信息，为了加速检索，还保存了tii文件，他是tis文件的索引，下面图简单的表示了他们之间的关系上图的左边表示tis中保存的所有的term ,右边tii是保存需要索引的term以及在tis中的位置，这样通过检索tii文件，定位到我们需要查找的term的大概位置，再通关过遍历(或者二分)找到term。这样做好像比直接对

2011-06-26 11:52:00 3954

原创 lucene 正排数据

当我们通过倒排，检索得到的是需要返回docid, 我们还需要根据id,从正排中得到具体的doc内容，再返回。 lucene中的正排是放到 fdx,fdt两个文件中，后者存放具体的数据，前者是对后者的一个索引(第n个doc数据在fdt中的位置) 我们来看看这两个文件如何建立的一首先建立两个文件org/apache/lucene/

2011-06-25 20:29:00 2166

原创 TypeError: not enough arguments for format string

出现这类问题，主要是字符串中包含了%号，python 认为它是转移符，而实际我们需要的就是%，这个时候，可以使用%%来表示

2011-06-23 14:37:00 37711 4

原创一个简单的微博后台设计

一个小型的微博系统，用户量比较少的时候，采用推的方式，推效率不会太低，用户查看微博的时候，直接从队列中获取，效率很高。整个系统需要下面几个表: 一用户表：基于了一个用户的基本信息，用户的id,名称等二用户关系表：表明了用户间关注关系。这块可以使用数据库表示 id+id 关系表示，但是这样效率会比较低，特别是关注者

2011-06-18 14:57:00 5095 3

原创 mysql 调试

1 下载地址 http://mysql.cs.pu.edu.tw/Downloads/MySQL-5.5/mysql-5.5.13.tar.gz2 编译 BUILD/compile-pentium64-debug --prefix=/home/admin/mysql/mysql-bin3 安装 make ; make install 4 服务需要的数

2011-06-13 11:35:00 762

原创 mysql 调试

1 下载地址 http://mysql.cs.pu.edu.tw/Downloads/MySQL-5.5/mysql-5.5.13.tar.gz2 编译 BUILD/compile-pentium64-debug --prefix=/home/admin/mysql/mysql-bin3 安装 make ; make install 4 服务需要的数

2011-06-13 11:35:00 866

benbendy1984的专栏

原创 lemur 使用

原创 lucene tvx tvd tvf 文件

原创 lucene frq 文件

原创 lucene tis和 tii 文件

原创 lucene 正排数据

原创 TypeError: not enough arguments for format string

原创一个简单的微博后台设计

原创 mysql 调试

原创 mysql 调试

空空如也

空空如也