- 博客(6)
- 收藏
- 关注
原创 为nutch 添加中文分词插件
1.nutch中文分词Nutch对中文查询时默认采用的分词器为NutchAnalyzer,对中文默认采用单字切分.这种效果不是很理想,我们可以自定义切词器,以实现对中文支持.可以采用的两种方式添加对中文的支持.1. 直接修改nutch的系统代码,对默认的分词器代码进行修改使其使用自定义中文分词程序.2. 采用插件的方式,不修改系统代码的基础上,编写中文分
2007-02-09 13:34:00 6025 4
原创 Hadoop 部署 2
1.前言: 以前在window下部署hadoop项目,部署过程中出现不少问题,虽然基本上进行了排除解决,但总体上在windows上部署hadoop分布项目不象在linux下那么顺利.最后还是在linux下进行了部署. 2.部署软硬件设备: 软件: 1.java执行环境jdk1.5+,jre1.5+ 2.hadoop软件,
2007-01-25 14:09:00 1368
转载 Hadoop 配置
HowToConfigureHow To Configure HadoopPrimary XML FilesHadoop is configured with a set of files. The files are loaded in the order listed in the table below, with the lower files in the tabl
2007-01-13 17:15:00 1801
原创 Hadoop在windows下运行
1.windows下的hadoop的分布部署主要有两种方式1.1.采用cygwin模拟linux下命令的方式,部署安装hadoop系统. 1.2.修改系统的代码文件DF.java使其可以在windows下运行. 主要原因在于,在hadoop的代码中对数据节点的磁盘使用情况的获取采用了 linux下的df -k 命令进行获取而在windows没有此命令支持,因此在数据节点启动DataNode
2007-01-13 16:41:00 4580
原创 hadoop 学习笔记1 - DFS
1.hadoop作为分布式计算平台,具体可参见hadoop网站.http://lucene.apache.org/hadoop在学习windows下部署过程中遇到不少问题,在这里把学习的一点心得写出来,希望在学习的朋友能少一点走的弯路.2. hadoop 组成hadoop 由两部分组成 分布文件系统 hdfs,分布计算框架map/reduce ,在这里先主要介绍其hdfs部分.3.
2007-01-12 16:48:00 1604
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人