搜索引擎
json20080301
这个作者很懒,什么都没留下…
展开
-
利用nutch-1.2和Lucene 搭建自己的搜索平台, Apache Mahout 构建社会化推荐引擎
关于这方面的文章很多! 这里只简单介绍一下,这两个框架或者说是项目的用途; Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到: * 每个月取几十亿网页 * 为这些网页维护一个索引 * 对索引文件进行每秒上千次的搜索 * 提供高质量的搜索结果 * 以最小的成本运作原创 2013-10-11 17:10:50 · 654 阅读 · 0 评论 -
网页特定数据采集
Web-Harvest是一个Java开源Web数据抽取工具。 它能够收集指定的Web页面并从这些页面中提取有用的数据。 其实现原理是,根据预先解释的配置文件用httpclient获取页面的全部内容(httpclient是一个开源的HTTP访问工具库),然后运用xpath、XQuery、正则表达式等这些技能来实现对text/xml的内容筛选操作,选取精确的数据。 前两年比较火原创 2013-10-11 17:10:55 · 830 阅读 · 0 评论