搜索引擎
文章平均质量分 77
sws9999
2012目标:40(TML)
2010目标:::AB!!!(实现)
2009大目标 ::: S(已实现)
展开
-
mysql 百万级数据插入更新速度问题(转)
大家好^^ 我现在正在作毕业设计 题目是构建一个搜索引擎 现在已经实现了crawler,代码全是自己写的,没有参开其他的open source,所以完全没有学习人家的开源的思想,比如nutch,然后再所以没有用文件作url的库,用的是mysql 5.0的innodb表,数据库中一共有12张表,分别是vUrls(以访问的url),urls_0到urls_10(这11张表代表了11中不同权重的未访问的转载 2008-04-23 17:35:00 · 4706 阅读 · 0 评论 -
七、 基于Nutch主题搜索引擎方案设计
七、 基于Nutch主题搜索引擎方案设计7.1主题搜索引擎7.2 主题搜索引模块设计7.2.1系统组成7.2.2 主题确立模块。7.2.3 优化初始种子模块7.2.4 主题相关度分析模块7.2.5排序模块7.3 Yahoo API简介 7.4 基于Nutch主题搜索引擎方案 Nutch是基于lucene技术的,可能是最转载 2008-11-05 22:04:00 · 1623 阅读 · 0 评论 -
垂直搜索引擎 nutch
垂直搜索引擎能否赢得市场? 垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。因此,特定行业的用户更加青睐垂直搜索引擎,是垂直搜索引擎的长期、稳定的群体。 中国十年多来互联网的不断发展,造就出1.3亿的网民,搜索引擎也出现空前的火热。在互联网出现的初期,雅虎、新浪、网易等大型门户网站拥有着绝对多的浏览量,原因在于当初的大部分网站在技术上无法与门户网站相媲转载 2008-11-05 22:08:00 · 1642 阅读 · 0 评论 -
Nutch搜索引擎分析
21世纪是信息的时代,也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人在查询自己所需的有用的相关信息时陷入迷茫。搜索引擎正是为了满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针。现在的商业搜索引擎不少,但都是保密的,不便研究。而Nutch 是一个开源Java 实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具。 Nutch是开转载 2008-11-05 21:34:00 · 766 阅读 · 0 评论 -
map-reduce简介
MapReduce是Google 的一项重要技术,它是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。至少现阶段而言,对许多开发人员来说,并行计算还是一个比较遥远的东西。MapReduce就是一种简化并行计算的编程模型,它让那些没有多少并行计算经验的开发人员也可以开发并行应用。在我看来,这也就是MapReduce的价值所在,通过简化编程模型,降低了转载 2008-11-05 21:35:00 · 1845 阅读 · 2 评论 -
!!!!搜索引擎设计实用教程-以百度为例
搜索引擎设计实用教程-以百度为例 之一:查询处理以及分词技术 中科院软件所 张俊林 2005年11月 随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能转载 2008-11-05 21:36:00 · 884 阅读 · 0 评论