搜索引擎
文章平均质量分 68
starxu85
这个作者很懒,什么都没留下…
展开
-
对定向抓取技术一点总结
这里的定向抓取技术是指抓取一个特定站点的数据,并且是需要输入条件以后才能得到的数据; 定向抓取与大搜索的抓取的不同之处是: 1.定向抓取需要处理post,get数据甚至是cookie 2.定向抓取不需要进行图的周游 3.定向抓取对url的重复识别没有大搜索复杂 4.定向抓取一般不需要dns缓存 5.定向抓取不需要seeds,但需要配置数据源 6.定向抓取要求抓的更精确; 目标数据原创 2008-05-27 20:54:00 · 1380 阅读 · 0 评论 -
北大天网搜索引擎TSE分析及完全注释[2]路过查询处理程序
我们可以知道整个程序是从TSESearch.cpp 中的main函数开始的我们重点一下这段代码//TSESearch.cpp CQuery iQuery; iQuery.GetInputs(); //具体程序开始执行 // current query & result page number iQuery.SetQuery(); iQuery.SetStart(); // begin原创 2009-02-28 10:13:00 · 1701 阅读 · 0 评论 -
北大天网搜索引擎TSE分析及完全注释[5]倒排索引的建立及文件介绍
不好意思让大家久等了,前一阵一直在忙考试,终于结束了。呵呵!废话不多说了下面我们开始吧!TSE用的是将抓取回来的网页文档全部装入一个大文档,让后对这一个大文档内的数据整体统一的建索引,其中包含了几个步骤。view plaincopy to clipboardprint?1. The document index (Doc.idx) keeps informat原创 2009-02-28 10:18:00 · 1315 阅读 · 0 评论 -
北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(2)
面的DocIndex程序输入一个Tianwang.raw.*****文件,会产生一下三个文件 Doc.idx, Url.idx, DocId2Url.idx,我们这里对DocSegment程序进行分析。这里输入 Tianwang.raw.*****,Doc.idx,Url.idx.sort_uniq等三个文件,输出一个Tianwang.raw.***.seg 分词完毕的文件原创 2009-02-28 10:22:00 · 858 阅读 · 0 评论 -
北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(4)
以下是根据正向索引建立倒排索引的注释 int main(int argc, char* argv[]) //./CrtInvertedIdx moon.fidx.sort > sun.iidx { ifstream ifsImgInfo(argv[1]); if (!ifsImgInfo) {原创 2009-02-28 10:24:00 · 936 阅读 · 0 评论 -
北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(1)
上一篇主要介绍了倒排索引建立相关的文件及中间文件。TSE建立索引在运行程序上的大致步骤可以简化分为以下几步:1、运行命令#./DocIndex会用到一个文件 tianwang.raw.520 //爬取回来的原始文件,包含多个网页的所有信息,所以很大,这也是一个有待解决的问题,到底存成大文件(如果过大会超过2G或4G的限制,而且文件过大索引效率过低)还是小文件(文件数过多用于打开原创 2009-02-28 10:21:00 · 1409 阅读 · 0 评论 -
北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(3)
这里介绍正向索引的建立,如果直接建立倒排索引效率上可能会很低,所以可以先产生正向索引为后面的倒排索引打下基础。 详细的文件功能和介绍都在这里有了介绍自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[5]倒排索引的建立及文件介绍 CrtForwardIdx.cpp文件 int main(int argc, char* argv[]) //./Cr原创 2009-02-28 10:23:00 · 906 阅读 · 0 评论 -
北大天网搜索引擎TSE分析及完全注释[3]来到关键字分词及相关性分析程序
有前面注释我们可以知道查询关键字和字典文件准备好好后,将进入用户关键字分词阶段//TSESearch.cpp中:view plaincopy to clipboardprint?CHzSeg iHzSeg; //include ChSeg/HzSeg.h // iQuery.m_sSegQuery = iHzSeg.S原创 2009-02-28 10:15:00 · 1228 阅读 · 0 评论 -
北大天网搜索引擎TSE分析及完全注释[4]小结
通过前面的三篇文章相信你已经对神秘的搜索引擎有了一个感性的认识,和普通的php类似的脚本语言服务器类似,通过获取前台关键字,通过字典分词,和事先建立建立好的倒排索引进行相关性分析,得出查询结构格式化输出结果。而这里的技术难点在于1、字典的选取(事实上根据不同时代不同地方人们的语言习惯是不一样的所以说字典的最小元的取值是不同的)2、倒排索引的建立(这里就要涉及到爬虫的抓取和索引的建立后原创 2009-02-28 10:17:00 · 1136 阅读 · 0 评论 -
北大天网搜索引擎TSE分析及完全注释[1]寻找搜索引擎入口
本着黑客精神我将陆续把最近分析注释TSE搜索引擎的心得发布出来,老鸟,大虾,大牛,高手飘过就是了,若愿意浪费指点下小弟的在下不甚感激,有问题的朋友直接留言讨论。由于本人水平有限,分析和翻译难免有错大家见笑了。上学期拜读了James F.Kurose著的《计算机网络-自顶向下方法与internet特色(第三版阴影)》,觉得写得确实不错(希望没看的朋友一定要买来看看),自己也来搞个高自顶向下的学习原创 2009-02-28 10:11:00 · 3112 阅读 · 2 评论 -
Lucene索引原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章原创 2009-02-09 10:07:00 · 969 阅读 · 2 评论 -
如何做好一个垂直搜索引擎
本文先引用几句话:1.“确解用户之意,切返用户之需。”2.“门户网站都想着是怎样省钱,而不是怎样花钱来买技术。”3.“搜索引擎不是人人都能做的领域,进入的门槛比较高。”4.“只是优秀还不够,最好的方式是将一件事情做到极致。”(google十大真理)5.“做搜索引擎需要专注” “对于一项排到第四的业务,门户很难做到专注。”6.“用户无法描述道他要找什么,除非让他看到想找的东西。”7. “所谓楔形,其原创 2008-05-27 21:15:00 · 913 阅读 · 0 评论 -
WEB网页结构化信息抽取技术介绍(网页库级)
WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。 如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……” 房产信息搜索那就应该抽取出那应该抽取出:类型、地域、地址、房型、面积、装修情况、租金、联系人、联系电原创 2008-05-27 21:20:00 · 956 阅读 · 0 评论 -
信息指纹与消重算法
信息指纹:就是提取一个信息的特征,通常是一组词或者一组词+权重,然后根据这组词调用特别的算法,例如MD5,将之转化为一组代码,这组代码就成为标识这个信息的指纹。从理论上讲,每两个不同文本的特征信息是不同的,那么得到的代码也应该是不一样的,就象人的指纹。搜索引擎在建立索引的时候需要对重复内容的网页进行识别和消重,这就要用到信息指纹。例如,通常搜索引擎要先对网页进行消噪,就是净化网页,将一原创 2008-05-31 08:45:00 · 1867 阅读 · 0 评论 -
NLP常用开源/免费工具
我发现大家经常询问一些类似的问题,例如stemmer,tagger等。不如我们一起整理一下,置底造福大家吧。对一些常见的NLP任务的开源/免费工具,请大家用RE文模式按照分类提供名称和URL。*Computational Linguistics Toolbox CLT http://complingone.georgetown.edu/~linguist/compling.html GAT原创 2008-05-31 09:13:00 · 1079 阅读 · 0 评论 -
基于向量空间模型的文本自动分类系统的研究与实现
基于向量空间模型的文本自动分类系统的研究与实现 Research and Implementation of Text Categorization System Based on VSM (Pang jianfeng) (Bu dongbo) (Bai shuo)Institute of Computing Technology , CAS 100080E-mail: pan原创 2008-05-31 09:16:00 · 2094 阅读 · 0 评论 -
Map/Reduce简介(zz)
MapReduce是Google开发的C++编程工具,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简) ",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中 的每一个共享相同的原创 2008-05-31 09:11:00 · 1035 阅读 · 0 评论 -
简单的分类模型
分类模型是文本分类的核心技术,大体上文本分类模型可以分为两种:基于规则的文本分类和基于统计的文本分类。在基于规则的分类技术中首先需要根据某种假设 建立起可用于分类的规则,该规则包括了文本的表示方法,类别的表示方法,文本与类别的映射方式等等,之后通过训练过程来完成规则的完善和调整,训练后则可 以使用该规则来决定文本的类别完成分类。决策树decision tree神经网络,支持向量机support v原创 2008-05-31 09:10:00 · 1993 阅读 · 0 评论 -
babytree
搜索引擎是一种通过一个只能容纳几十个汉字的文本框建立起来的一个人与包含数十块硬盘的若干台服务器之间的交流。我们的站内搜索,每天要接纳妈妈们的各种问题,然后细心的把最好的答案告诉给她们。一个妈妈想知道,在BabyTree上有多少上海的父母,于是他在搜索框里输入“上海”两个字,我们的搜索引擎会把所有所在地点为上海的父母、他们的宝宝树、以及他们最近的活动做成一个简单而又细致的列表呈现给这个妈妈;另一个妈转载 2008-06-01 08:05:00 · 778 阅读 · 0 评论 -
搜索引擎CACHE策略研究
以前曾经提到过搜索引擎的缓存策略, 根据搜索引擎搜索的关键词的统计分布, 可以优化设计搜索引擎的缓存策略. 就普通的缓存策略上讲, 缓存是因为在一定的时间段内的搜索的关键词集中在一定的范围内, 并且这些搜索相对稳定. 例如每天搜索"美女"的人总有10万,20万, 而结果在这段时间相对稳定, 因此没有必要每次去检索索引文件, 而将上一个人搜索的结果直接返回便可以了.原创 2010-08-16 23:20:00 · 3517 阅读 · 1 评论