搜索引擎
hfutxrg
这个作者很懒,什么都没留下…
展开
-
lucene总结
搜索引擎知识总结1:搜索引擎按原理和工作方式可分为:A:爬虫式,主要用Socket实现,基于TCP/IP协议B:目录索引式,以早期的yahoo为代表C:元搜索引擎,即将多个搜索引擎的结果合并返回 2:按领域范围可分为:A:通用搜索引擎---针对全互联网全部网站和各种数据信息,信息全,领域广B:垂直搜索引擎---针对果某一行业,如企业库搜索,供求信息搜索,房产搜索转载 2009-07-13 19:19:00 · 1836 阅读 · 0 评论 -
Cygwin的安装
关于cygwin的安装: 1. 最好不要到www.cygwin.com下载cygwin..也就是说不要从Internet上安装cygwin,而要从本地安装(PS:往往千奇百怪的错误就是因为从internet下载的cygwin的版本引起的)。,从这里下载http://140.116.72.80/~smallko/ns2/ns_setup.rar 。我一开始就是使用的从网上下载的那个setup.exe转载 2009-07-12 19:39:00 · 914 阅读 · 0 评论 -
jena学习思路
在用protege建好本体之后,下一步便是需要对本体进行解析.本体解析有许多思路和工具可以使用,甚至可以自己编写本体解析的模块.jena是由HP实验室开发的模块,用于支持语义网应用.为了学习和使用jena,我的确已经花费了不少时间.因为对这个东东一点都不了解,在网上搜集一些信息,比较杂乱,不知从何开始.现在对这个问题已经有了一些了解,总结一些学习思路,以供参考,避免初学者象我最初一样在搜集和删转载 2009-06-04 13:08:00 · 3085 阅读 · 2 评论 -
Nutch-0.9源代码:Crawl类整体分析
Nutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl.Crawl类的源代码来了解Nutch是如何根据接收的命令行进行配置及其启动的。org.apache.nutch.crawl.Crawl类的转载 2009-05-28 23:17:00 · 1114 阅读 · 4 评论 -
Nutch开源搜索引擎的crawl日志分析及工作目录说明
看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。 可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。 crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-urlfilter转载 2009-05-28 23:15:00 · 800 阅读 · 0 评论 -
潜在语义索引-搜索引擎原理
隐含语义索引LSI-搜索引擎原理有些事情我们一直在思考,比如搜索引擎是如何来判断文章的原创?文章是否有关键词堆积?那么搜索引擎又是如何来判断文章和关键词的相关性的呢?还有很多朋友都很疑惑的一个问题,因为大家都知道Google的排名算法PR,好像现在不起作用了,因为很多SEOER都跟我说,很多PR高的在某些关键词排名反而落后于PR值很低的站点。所以大部分的朋友认为是不是PR现在已经转载 2009-05-26 18:28:00 · 1745 阅读 · 0 评论 -
nutch1.0中索引的更新和维护
1、写一个维护脚本,定时运行,是个好办法 #!/bin/bash # Set JAVA_HOME to reflect your systems java configurationexport JAVA_HOME=/usr/lib/j2sdk1.5-sun # Start index updation,只查找最热门的前1000条记录,由此创建新的segmentbin/nutch gener转载 2009-05-11 13:46:00 · 869 阅读 · 0 评论 -
在Eclipse中运行Nutch1.0
Run Nutch In Eclipse on Linux and Windows nutch version 1.0Tested withNutch release 1.0 Eclipse 3.3Java 1.6 Ubuntu (should work on most platforms though) Windows XP StepsFor Window原创 2009-05-09 14:49:00 · 2765 阅读 · 0 评论 -
Nutch二次开发总结(二)
3搜索结果优化使用nutch 0.9自带的程序包搜索的时候,存在一个冗余数据的情况。例如,如果想搜索关于姚明、易建联等的信息时,nutch默认会把网页中导航条或者一些标题等中包含姚明和易建联信息的页面检索出来,以腾讯为例,http://sports.qq.com/nba/的导航条部分包含了姚明和易建联。但这个页面的其他信息没有设计到姚明和易建联,所以这个页面可能实际上不是我们想要的;还有一种转载 2009-07-14 19:52:00 · 1186 阅读 · 0 评论 -
Nutch二次开发总结(一)
通过一系列的离线活动(对于查询用户而言)的开展,Nutch检索系统相对而言变得简单了许多。在二次开发的时候,需要重点对Nutch的界面及界面显示数据进行适当的调整。1 摘要提取1.1 摘要提取源码分析** * Low level api to get the most relevant (formatted) sections of the document. * 底层API转载 2009-07-14 19:51:00 · 1094 阅读 · 0 评论 -
Nutch1.0源码分析-----抓取部分
document.body.oncopy = function() { if (window.clipboardData) { setTimeout(function() { var text = clipboardData.getData("text");转载 2009-11-08 16:44:00 · 2377 阅读 · 1 评论