搜索引擎
iteye_10917
这个作者很懒,什么都没留下…
展开
-
使用Heritrix爬取国内某最火的电子商城的笔记本信息遇到的问题
网上的某些资料也说了对Heritrix进行扩展定制即可个性化的从网上爬取自己需要的内容,为建立垂直搜索作做好准备。 这里主要扩展FrontierScheduler和Extractor两个class,由于是个demo所以比较简单,由于这些代码仅仅是周日下午和今天晚上抽时间些的,故效率上没有可考虑,比如太多的正则,反射方法构造后应该缓存等,仅供参考 扩展如下: ...2010-09-15 22:35:15 · 127 阅读 · 0 评论 -
创建自己的第一个垂直搜索引擎遇到的问题
开发环境:ununtu10.04 Eclipse3.6 mysql5.1 tomcat6.0.29 所用技术:Spring3.0+servlet2.5+jsp+jquery+ibatis2.x+lucene3.x+heritrix1.4 [img]http://dl.iteye.com/upload/attachment/316054/fab3d0e4-13ee-3f73-a9d1-6be...2010-09-25 12:32:04 · 123 阅读 · 0 评论 -
Luncene2.0+Heritrix开发自己的搜索引擎 泛读一
今儿,多喝了几扎,所以更新晚了,废话少说。我看书看资料习惯泛读后精读再精读,所以现在先把泛读所感记下。如果路人,请别见笑! 本人对搜索引擎的学习是从lucene2.0开始,所以谈谈对lucene暂时了解部分的感悟。 搜索引擎呢,据我所领悟的就是抓取数据(存储、索引、分词)、读取数据(根据不同需求读取或者说分析用户的需求获取数据)。抓取数据就是对...原创 2010-07-12 22:55:45 · 150 阅读 · 0 评论