lucene&nutch
coderplay
这个作者很懒,什么都没留下…
展开
-
职友集的搜索
我先试了一个搜索“和服”,这个词,返回1092条结果。不过应该都是没用的。且看前面几条: 财务软件实施和服务顾问 参考工资 查看人脉服务经理和服务工程师Service Manager and Engineer 参考工资 查看人脉服务经理和服务工程师Service Manager and Engineer 参考工资 看样子是采用的二元分词做的。 ht...2008-07-04 12:45:49 · 173 阅读 · 0 评论 -
中文分词演示
中文分词是中文信息检索的基础,也是一项难题。下面随手做的一个演示, lucene的Analyzer扩展。2008-05-23 20:03:25 · 230 阅读 · 0 评论 -
nutch源代码分析之ParseSegment
ParseSegment2008-05-20 19:36:27 · 124 阅读 · 0 评论 -
nutch源代码分析之Fetcher
MapReduce:获取的urls集 输入:<url,CrawlDatum>, 按主机分块, 按hash排序 Map(url,CrawlDatum) $\to$ <url,FetcherOutput> 通过多线程、异步map实现调用已有的Nutch协议插件 FetcherOutput: <CrawlDatum, 网页内容Content&...2008-05-20 17:28:54 · 145 阅读 · 0 评论 -
nutch源代码分析之Generator
MapReduce1:选择要获取的urls[list][*] 输入:爬虫数据库文件[code="java"] public Path generate(...) { ... job.setInputPath(new Path(dbDir, CrawlDb.CURRENT_NAME)); job.setInputFormat(SequenceFile...2008-05-20 03:33:32 · 191 阅读 · 0 评论 -
nutch源代码分析之Injector
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。参见Injector.inject(Path crawlDb, Path urlDir)方法MapReduce1: 把输入数据转换为数据库所需的格式[list][*] 输入:未处理的,包含url信息的文本文件[*] Map(line) -> ; status=db_unfetc...2008-05-20 03:14:57 · 110 阅读 · 0 评论 -
关于本体论及语意搜索的一些资料
本体论的概念, wikihttp://en.wikipedia.org/wiki/Ontology_(information_science)有点像专家系统, 应该是prolog的专长. 语义搜索http://www.powerset.comhttp://www.hakia.com/http://www.evri.com...2008-11-13 01:47:04 · 90 阅读 · 0 评论 -
最近做的几个项目
1. 把libmmseg分词加了与lucene吻合的java接口,分词速度与c++版本接近, 已经和作者联系了.会在近期开源出去. 2. 用hadoop的mapreduce模型做了一个自动识别行业词的程序, 从算法上降低了计算量,而且分布式的话会更加快. 我用一份从51job, 智联招聘, 中华英才网等400多家招聘网站抓取的311万条职位语料做测试,5, 4元词词频在1000以上的正确...2008-09-29 10:11:21 · 97 阅读 · 0 评论 -
几个搜索相关的pdf(lucene, 分词等)
写文档时, 偶然发现很久以前的东西,给大家分享一下. 现在lucene已经过了这个版本, 已经有OpenBitSet这种好东西了.~ 1. lucene2.3.2的变更2. 疱丁解牛分词器分析3. 几种分词器精度和速度的比较 Lucene2.3.2的变更Author: Jeremy Chow([email protected])Last Modified: Aug 1...2009-02-26 15:01:50 · 186 阅读 · 0 评论 -
lucene2.3.2与2.2.0建索引的速度比较
文本材料大小: 43.9 MB文件数目: 19997个分析器: lucene标准StandardAnalyzerlucene-2.2.0 索引大小: 16,901,638 字节耗时:158094 total milliseconds110437 total milliseconds106328 total millisecondslucene-2.3.2 索引大小:...2008-07-29 22:42:02 · 105 阅读 · 0 评论 -
关于分布式lucene
有NFS, haproxy/lvs等解决方案。或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统 为什么不用hadoop的HDFS? 原因有三:1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效...2008-07-07 14:15:00 · 199 阅读 · 0 评论 -
nutch演示
抓取了系里的网站 http://cs.jnu.edu.cn和lucene的网站 http://lucene.apache.org/ 然后对这两个网站进行搜索.2008-05-23 20:08:57 · 82 阅读 · 0 评论