- 博客(9)
- 收藏
- 关注
原创 lemur 使用
我主要想研究下 indri ,所以 就只研究这快 下载源代码后,直接configure ;make 就可以了 建立索引: 配置文件 /home/admin/indri/buildindex/test/index /home/admin/indri/buildindex/test
2011-06-30 16:26:00 1821
原创 lucene tvx tvd tvf 文件
我们平时看到的文件,其本质上是有词组成的,我们可以看做是词的集合,当我们把相同的词就可以看做是一个词的向量了。 这里的tvx tvd tvf 就是以这种形式表示doc的: tvx : doc的数量,以及每个doc 在 tvd 以及 tvf 中开始的位置。 tvd : 每个doc的域信息: 有多少个域,具体是那几个域,每个域
2011-06-27 16:26:00 1621
原创 lucene frq 文件
lucene 的frq 存放的是搜索引擎中的doclist,主要保存了docid以及该id 出现的次数,当然为了加快检索,里面还建立的一个跳排表,我们这些进行详细介绍。 一 docid 和 频率 如果简单的来想,这块的内容可以很简单,就是一个 (docid+ freq ) 一个序列 : docid1, freq1 ,docid
2011-06-27 11:06:00 1767
原创 lucene tis和 tii 文件
在lucene 中使用 tis 保存了所有term的信息,为了加速检索,还保存了tii文件,他是tis文件的索引,下面图简单的表示了他们之间的关系 上图的左边表示tis中保存的所有的term ,右边tii是保存需要索引的term以及在tis中的位置,这样通过检索tii文件,定位到我们需要查找的term的大概位置,再通关过遍历(或者二分)找到term。 这样做好像比直接对
2011-06-26 11:52:00 3954
原创 lucene 正排数据
当我们通过倒排,检索得到的是需要返回docid, 我们还需要根据id,从正排中得到具体的doc内容,再返回。 lucene中的正排是放到 fdx,fdt两个文件中,后者存放具体的数据,前者是对后者的一个索引(第n个doc数据在fdt中的位置) 我们来看看这两个文件如何建立的 一 首先建立两个文件org/apache/lucene/
2011-06-25 20:29:00 2166
原创 TypeError: not enough arguments for format string
出现这类问题,主要是字符串中包含了%号,python 认为它是转移符,而实际我们需要的就是%, 这个时候,可以使用%%来表示
2011-06-23 14:37:00 37711 4
原创 一个简单的微博后台设计
一个小型的微博系统,用户量比较少的时候,采用推的方式,推效率不会太低,用户查看微博的时候,直接从队列中获取,效率很高。 整个系统需要下面几个表: 一 用户表 : 基于了一个用户的基本信息,用户的id,名称等 二 用户关系表: 表明了用户间关注关系。这块可以使用数据库表示 id+id 关系表示,但是这样效率会比较低,特别是关注者
2011-06-18 14:57:00 5095 3
原创 mysql 调试
1 下载地址 http://mysql.cs.pu.edu.tw/Downloads/MySQL-5.5/mysql-5.5.13.tar.gz2 编译 BUILD/compile-pentium64-debug --prefix=/home/admin/mysql/mysql-bin3 安装 make ; make install 4 服务需要的数
2011-06-13 11:35:00 762
原创 mysql 调试
1 下载地址 http://mysql.cs.pu.edu.tw/Downloads/MySQL-5.5/mysql-5.5.13.tar.gz2 编译 BUILD/compile-pentium64-debug --prefix=/home/admin/mysql/mysql-bin3 安装 make ; make install 4 服务需要的数
2011-06-13 11:35:00 866
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人