- 博客(8)
- 资源 (18)
- 收藏
- 关注
原创 hadoop集群搭建
1.hadoop入门篇,包括软件下载及配置,并保证单机和伪分布模式可以运行通过,请看hadoop官网 2.集群搭建笔者在hadoop集群搭建中,走了很多弯路,希望大家莫犯同样的错误(a)ssh免密码登陆刚开始ssh localhost 都需要密码,后来在masters机器上,将.ssh目录权限设为500,authroized_keys设为600才好ubuntu目录权限修改
2011-06-19 22:43:00 17262 2
原创 利用solrj管理文章检索
近几天,一直纠结中文乱码问题,solr查询出来的结果没有乱码,但如果加高亮显示,中文就会有乱码,到现在还搞不清楚原因 结合上次写的文件上传下载删除示例,现在的想法,是当用户传一个文件成功后,即将这个文件同时也加到solr索引中,然后提供一个简单的查询页面,这个页面可以根据用户输入的关键字,来检索到是哪个文档,并提供该文件的下载便可,不用像百度那样,高亮显示关键字,并展示文档关键字部分文字,
2011-06-13 12:08:00 1770
原创 solr读取word,pdf
这两天一直纠结是用lucene来做搜索应用,还是用solr来做搜索应用。lucene只提供一个可查询的包,用它来实现搜索的好处是,应用需要什么,我就用它提供的相应功能即可。而solr本身就是基于lucene的应用,对lucene又做了封装,这就相当于是在第二层基础之上开发,所以要改它是需要花时间的。但solr提供了很多lucene没有的功能,不管了,老师说要用solr,那就用solr吧luce
2011-06-10 10:52:00 13440 14
原创 lucene读取word,excel,pdf
前面在写lucene入门的时候,例子只能对txt文档建立索引,不能对word,excel,pdf建立索引,要读取这些文档的内容,需要额外的jar包,好在apache这个开源组织好,提供了对这些文档解析的开源jar包 索引和查询,我就不再写出来了,前面文章有,下面只将这三种文档的读取方法贴在下面 1.首先来看WORD文档:这里用的是poi,相关jar包(http://poi.ap
2011-06-07 20:33:00 4968
原创 solr中文分词
我在solr中尝试了以下三种开源中文分词器,其中两种都因为solr版本过高不能用,郁闷,后来将JAR包反编译,找到了原因,下面先简要说明一下三种开源中文分词器 庖丁解牛:google code上最后一次代码提交是2008.6月,不是很活跃,但用的人还很多mmseg4j:google code上最后一次代码提交是2010.12月,应该还算活跃,采用MMSeg算法,有两种分词方法:Simp
2011-06-05 16:15:00 17730 1
原创 Lucene入门简单说明
Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。 其功能非常的强大,api也很简单。总得来说用Lucene来进行搜索和操作数据库是差不多的(有点像),Document可以看作是数据库的一行记录,Field可以看作是数据库的字段。用lucene实现搜索引擎就像用JDBC实现连接数据库一样简单。 1.到apache官网上下载目前的最新版本lucene-3.1.0,下载地址:h
2011-06-03 14:26:00 1175 1
原创 solr入门与配置
1.软件下载(1).apache-solr-3.1.0,写这篇文章时的最新版本,请到apache官网上去下载,解压到如 E:/apache-solr-3.1.0。(2).apache-tomcat-6.0.32,apache官网上去下载,解压到如 E:/apache-tomcat-6.0.32。2.solr安装到tomcat(1).修改 E:/apache-tomcat-6.0.32/conf/server.xml,加个 URIEncoding="UTF-8",把 8080 的那一块改为:(2).把下面的内
2011-06-02 20:07:00 3858 1
十分钟自学MySQL
2009-11-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人