搜索引擎研究
Zda天天爱打卡
这个作者很懒,什么都没留下…
展开
-
自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[5]倒排索引的建立及文件介绍
author:http://hi.baidu.com/jrckkyyauthor:http://blog.csdn.net/jrckkyy不好意思让大家久等了,前一阵一直在忙考试,终于结束了。呵呵!废话不多说了下面我们开始吧!TSE用的是将抓取回来的网页文档全部装入一个大文档,让后对这一个大文档内的数据整体统一的建索引,其中包含了几个步骤。1. The document index原创 2008-07-05 17:52:00 · 3212 阅读 · 0 评论 -
The Google File System中文版
译者:alex 英文原文地址: Google File systemhttp://labs.google.com/papers/gfs.html译文原文地址: The Google File System中文版http://blademaster.ixiezi.com/2010/03/27/the-google-file-system%E4%B8%AD%E6%96%87%E7%89%88/摘要我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行转载 2010-11-04 17:30:00 · 1335 阅读 · 0 评论 -
自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(4)
以下是根据正向索引建立倒排索引的注释 int main(int argc, char* argv[]) //./CrtInvertedIdx moon.fidx.sort > sun.iidx { ifstream ifsImgInfo(argv[1]); if (!ifsImgInfo) { cerr "Cannot o原创 2008-10-16 16:40:00 · 1529 阅读 · 0 评论 -
自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(2)
前面的DocIndex程序输入一个Tianwang.raw.*****文件,会产生一下三个文件 Doc.idx, Url.idx, DocId2Url.idx,我们这里对DocSegment程序进行分析。这里输入 Tianwang.raw.*****,Doc.idx,Url.idx.sort_uniq等三个文件,输出一个Tianwang.raw.***.seg 分词完毕的文件int原创 2008-10-16 15:46:00 · 1476 阅读 · 0 评论 -
自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(3)
这里介绍正向索引的建立,如果直接建立倒排索引效率上可能会很低,所以可以先产生正向索引为后面的倒排索引打下基础。 详细的文件功能和介绍都在这里有了介绍自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[5]倒排索引的建立及文件介绍 CrtForwardIdx.cpp文件 int main(int argc, char* argv[]) //./CrtFo原创 2008-10-16 16:16:00 · 1734 阅读 · 0 评论 -
自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[3]来到关键字分词及相关性分析程序
有前面注释我们可以知道查询关键字和字典文件准备好好后,将进入用户关键字分词阶段//TSESearch.cpp中: CHzSeg iHzSeg; //include ChSeg/HzSeg.h // iQuery.m_sSegQuery = iHzSeg.SegmentSentenceMM(iDict, iQuery.m_sQuery); //将get到的查询变量分词分成 "我原创 2008-06-03 18:42:00 · 242050 阅读 · 6 评论 -
自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[4]小结
通过前面的三篇文章相信你已经对神秘的搜索引擎有了一个感性的认识,和普通的php类似的脚本语言服务器类似,通过获取前台关键字,通过字典分词,和事先建立建立好的倒排索引进行相关性分析,得出查询结构格式化输出结果。而这里的技术难点在于1、字典的选取(事实上根据不同时代不同地方人们的语言习惯是不一样的所以说字典的最小元的取值是不同的)2、倒排索引的建立(这里就要涉及到爬虫的抓取和索引的建立后面将重原创 2008-06-03 19:03:00 · 3245 阅读 · 0 评论 -
自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[2]路过查询处理程序
由上一篇文章[原]自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[1]寻找搜索引擎入口 我们可以知道整个程序是从TSESearch.cpp 中的main函数开始的我们重点一下这段代码//TSESearch.cpp CQuery iQuery; iQuery.GetInputs(); //具体程序开始执行 // current query & result pa原创 2008-05-29 17:39:00 · 2560 阅读 · 0 评论 -
自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[1]寻找搜索引擎入口
由于百度博客http://hi.baidu.com/jrckkyy发表文章字数有限,以后原创文章全部都先发表到csdn和cu上,再发表到百度博客上,百度博客除了放原创的文章还主要放网上寻找到的优秀文章。本着黑客精神我将陆续把最近分析注释TSE搜索引擎的心得发布出来,老鸟,大虾,大牛,高手飘过就是了,若愿意浪费指点下小弟的在下不甚感激,有问题的朋友直接留言讨论。由于本人水平有限,分析和翻译难免有原创 2008-05-23 15:41:00 · 19268 阅读 · 0 评论 -
自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(1)
author:http://hi.baidu.com/jrckkyyauthor:http://blog.csdn.net/jrckkyy上一篇主要介绍了倒排索引建立相关的文件及中间文件。TSE建立索引在运行程序上的大致步骤可以简化分为以下几步:1、运行命令#./DocIndex会用到一个文件 tianwang.raw.520 //爬取回来的原始文件,包含多个网页的所有信息,所以原创 2008-07-30 14:24:00 · 2281 阅读 · 0 评论 -
linux裸机RedHat as5.3 as4.3 上最新KFS 0.5版本安装全过程 2010年11月 依赖库使用最新版本源码编译安装[1]
摘要:裸机RedHat as5.3 32位机器上,裸机上默认安装有boost1.33,gcc version 4.1.2 20080704 (Red Hat 4.1.2-44),java1.4,boost和gcc(目前知道的是gcc4.1.2版本以上,boost1.33以上KFS0.5版可以编译通过)符合KFS的版本要求,只需要下载并编译使用cmake来编译KFS,下载安装git来下载xfs,KFS依赖xfs的几个头文件,java1.4升级到java1.6即可。裸机RedHat as4.3原创 2010-11-24 17:37:00 · 2501 阅读 · 0 评论