![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
cxshun
内向,喜欢研究电脑技术,对生活较乐观,现就读本科大学二年级
展开
-
solr初体验(1)
由于工作原因,这段时间接触到solr,一个基于lucene的企业级搜索引擎。不怎么了解它的童鞋可以去GOOGLE一下。 下面开始正题: 1)要开始solr的学习,首先当然是要下载它啦(这是一句废话),可以到http://www.apache.org/dyn/closer.cgi/lucene/solr/这里去下载,最新的是1.4.1。下完后当然要解压啦(这也是废话)。我们看到它的结构是这...原创 2011-05-10 22:08:58 · 96 阅读 · 0 评论 -
solr初体验(2)
接着上篇http://cxshun.iteye.com/blog/1039445,我们讲了怎么初始化配置solr,并运行。问题来了,当我们配置完成后,索引当中并没有任何东西,就是说我们查询得到的结果永远是0。 现在这篇文章,我们要讲的就是如果添加数据和删除数据,并体验一下solr的基本请求参数的用法。 1)首先,我们必须知道,solr添加数据类型可以有多种格式,最常用的是XML和JSON...原创 2011-05-11 20:53:55 · 104 阅读 · 0 评论 -
solr初体验(4)
前几次我们讲到了solr的基本用法和配置文件,接下来就开始进入我们真正的代码之旅啦。 1)首先以一个简单的程序来开头: public static void main(String[] args) throws SolrServerException, IOException, ParserConfigurationException, SAXException{ ...原创 2011-05-13 20:40:04 · 78 阅读 · 0 评论 -
nutch中文分词
经过了几天的折磨solr,公司又要求修改以前的一个nutch项目,这次修改的东西比较多了,涉及到索引字段和日期索引等,这个我们下次再讲,今天我们来讲一下nutch的中文分词。这时,我还是用了IKAnalyzer,再次感谢作者的辛劳。提醒一下,这时用到的NUTCH是1.2版本。 废话不多说,我们现在开始进入正题: 1)在我们修改之前,我们先去下载一个工具,javacc,一个JAVA编译器,...2011-05-16 23:10:52 · 106 阅读 · 0 评论 -
说说NUTCH插件
这几天的回顾NUTCH项目的过程中,需要对lastModified进行搜索,这下就痛苦啦,用lucene的用法lastModified:[20110101-20120111]拼命的搜啊,搜啊。无耐国足不给力啊,始终搜不出来。于是只能开源代码,拼命地看,总算找到了插件那里实现了搜索的功能。 每一个基本的非范围搜索都可以由NUTCH来实现,但当我们希望它可以实现范围搜索的时候,我们就需要自己实现...2011-05-17 20:41:44 · 122 阅读 · 0 评论 -
再入lucene
相信很多人都听过lucene,这样一个用于实现搜索引擎功能的一个工具包。说它是一个工具包,因为它只是提供我们用于索引和查询的工具,并不包含真正一个搜索引擎需要的其他东西——爬虫,抽取等等。 废话不多说,我们直接来看看lucene4的一些简单的例子(lucene4.1已经出了,暂时没来得及看有什么变化,lucene的API经常修改,所以版本间可能会有些不同的,大...原创 2013-01-27 12:05:31 · 82 阅读 · 0 评论