搜索引擎
文章平均质量分 70
AngelRobot
贪吃 嗜睡 耍赖皮
展开
-
nutch0.9中使用je分词
前言:msn空间丢失以及csdn空间丢失,导致很多以前写的文档都不见了~~幸好搜索到了,贴回来留念~~2007年的记忆:) 首先要感谢"苹果"、"冰人"、"悟空"等,他们给了我思路和代码等方面的帮助。 注:本文挡为最基本的分词方式,分词后原有高级搜索部分功能无效。 如果各位仍然需要高级搜索功能,请参见Nutch0.9分词研究中的思路加以修改。 将如下文件中原创 2012-03-06 16:58:52 · 441 阅读 · 0 评论 -
Nutch0.9分词研究
前言:msn空间丢失以及csdn空间丢失,导致很多以前写的文档都不见了~~幸好搜索到了,贴回来留念~~2007年的记忆:) 首先,我要申明,这篇文档提供的只是思路,不是解决方案,而且不针对任何分词组件。如果想看解决方案的话,请查看我的另一篇文档,《nutch0.9中使用JE分词》。 在分词的过程中,我发现其实分词包含两部分,第一部分是关于抓取结果的分词,第二部分是关于查询关键原创 2012-03-06 17:01:47 · 504 阅读 · 0 评论 -
《Nutch0.9入门使用指南》——配置与发布篇
前言:msn空间丢失以及csdn空间丢失,导致很多以前写的文档都不见了~~幸好搜索到了,贴回来留念~~2007年的记忆:) part1:简单配置与发布 注:本文为个人学习后之总结,如有错误和不足,还望各位高手提醒补充,谢谢。QQ:41981172 经过那么多天的学习,个人认为开发搜索的主要流程如下:1.信息抓取 2.分词 3.索引 4分布式 只是个人基于nutch的感觉,不足的地原创 2012-03-06 16:55:24 · 657 阅读 · 0 评论