2011年06月_aidayei

12月 11月 10月 09月 08月 07月 06月 05月

原创 hbase搭建

首先要保证zookeeper搭建成功，然后再搭建hbase，最近因为实习，先留下最近的记录，待有时间慢慢整理

2011-06-29 20:36:00 1049

原创 hadoop集群搭建

1.hadoop入门篇，包括软件下载及配置，并保证单机和伪分布模式可以运行通过，请看hadoop官网 2.集群搭建笔者在hadoop集群搭建中，走了很多弯路，希望大家莫犯同样的错误(a)ssh免密码登陆刚开始ssh localhost 都需要密码，后来在masters机器上，将.ssh目录权限设为500，authroized_keys设为600才好ubuntu目录权限修改

2011-06-19 22:43:00 17262 2

原创利用solrj管理文章检索

近几天，一直纠结中文乱码问题，solr查询出来的结果没有乱码，但如果加高亮显示，中文就会有乱码，到现在还搞不清楚原因结合上次写的文件上传下载删除示例，现在的想法，是当用户传一个文件成功后，即将这个文件同时也加到solr索引中，然后提供一个简单的查询页面，这个页面可以根据用户输入的关键字，来检索到是哪个文档，并提供该文件的下载便可，不用像百度那样，高亮显示关键字，并展示文档关键字部分文字，

2011-06-13 12:08:00 1770

原创 solr读取word,pdf

这两天一直纠结是用lucene来做搜索应用，还是用solr来做搜索应用。lucene只提供一个可查询的包，用它来实现搜索的好处是，应用需要什么，我就用它提供的相应功能即可。而solr本身就是基于lucene的应用，对lucene又做了封装，这就相当于是在第二层基础之上开发，所以要改它是需要花时间的。但solr提供了很多lucene没有的功能，不管了，老师说要用solr，那就用solr吧luce

2011-06-10 10:52:00 13440 14

原创 lucene读取word,excel,pdf

前面在写lucene入门的时候，例子只能对txt文档建立索引，不能对word,excel,pdf建立索引，要读取这些文档的内容，需要额外的jar包，好在apache这个开源组织好，提供了对这些文档解析的开源jar包索引和查询，我就不再写出来了，前面文章有，下面只将这三种文档的读取方法贴在下面 1.首先来看WORD文档：这里用的是poi，相关jar包(http://poi.ap

2011-06-07 20:33:00 4968

原创 solr中文分词

我在solr中尝试了以下三种开源中文分词器，其中两种都因为solr版本过高不能用，郁闷，后来将JAR包反编译，找到了原因，下面先简要说明一下三种开源中文分词器庖丁解牛：google code上最后一次代码提交是2008.6月，不是很活跃，但用的人还很多mmseg4j：google code上最后一次代码提交是2010.12月，应该还算活跃，采用MMSeg算法，有两种分词方法：Simp

2011-06-05 16:15:00 17730 1

原创 Lucene入门简单说明

Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。其功能非常的强大，api也很简单。总得来说用Lucene来进行搜索和操作数据库是差不多的(有点像)，Document可以看作是数据库的一行记录，Field可以看作是数据库的字段。用lucene实现搜索引擎就像用JDBC实现连接数据库一样简单。 1.到apache官网上下载目前的最新版本lucene-3.1.0,下载地址:h

2011-06-03 14:26:00 1175 1

1.软件下载(1).apache-solr-3.1.0，写这篇文章时的最新版本，请到apache官网上去下载，解压到如 E:/apache-solr-3.1.0。(2).apache-tomcat-6.0.32，apache官网上去下载，解压到如 E:/apache-tomcat-6.0.32。2.solr安装到tomcat(1).修改 E:/apache-tomcat-6.0.32/conf/server.xml，加个 URIEncoding="UTF-8"，把 8080 的那一块改为：(2).把下面的内

2011-06-02 20:07:00 3858 1