2011年07月_xyz2011

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

nutch-1.2在搜索HDFS过程中高并发的处理

紧接着昨天的一篇文档写下去。nutch-1.2结合hadoop搜索，在高并发的情况下，搜索的速度如何提升。1、其实通过看nutch-1.2中的NutchBean源码程序不难发现，它在搜索的时候，有几个实现类，RPCSearchBean、DistributedSearchBean、SolrSearchBean。在RPCSearchBean中还有LuceneSearchBean，和NutchBea...

2011-07-14 17:17:32 129

nutch-1.2结合hadoop分布式搜索

nutch-1.2结合hadoop分布式搜索。1、网上关于nutch分布式搜索的配置有些BLOG写的很详细了。有那些地方有疑问的，我这里也给一个连接<<nutch分布式搜索配置>>2、在这里主要想写下工作过程当中遇到的一些问题：------0-------------1-------------2-------------3-------java...

2011-07-13 10:50:18 171

原创大数据量的走向趋势

时至今日，“Bigdata”（大数据）时代的来临已经毋庸置疑，尤其是在电信、金融等行业，几乎已经到了“数据就是业务本身”的地步。在这其中，还挟裹着一个更为重要的趋势，即数据的社会化（Socialization of Data）。从博客论坛到游戏社区再到微博，从互联网到移动互联网再到物联网，人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。对于时刻关注市场走向的企业来讲，他们需要关...

2011-07-08 10:26:16 312

hive执行查询出现：Error while making MR scratch directory - check filesystem解决办法

进入 $hadoop_home vi conf/core-site.xml之前的配置是hdfs://192.168.10.145:9060但是在hive命令行下面查询一直出错：错误信息如下：FAILED: Hive Internal Error: java.lang.RuntimeException(Error while making MR scratch directory - c...

2011-07-07 15:34:28 249

原创 secondarynamenode配置使用总结

一、环境Hadoop 0.20.2、JDK 1.6、Linux操作系统二、背景上周五的时候，由于操作系统的原因，导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是，出问题的机器就是Master。当时心里就凉了半截，因为secondarynamenode配置也是在这个机器上（默认的，没改过）。不过万幸的是这个集群是测试环境，所以问题不大。借这个缘由，我将sec...

2011-07-07 08:37:13 1122

原创 Map/Reduce中的Combiner的使用

一、作用1、combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示：map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3)2、combiner还具有类似本地的reduce功能.例如h...

2011-07-07 08:36:30 167

原创 Map/Reduce中的Partiotioner使用

一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、为何使用Partitioner，主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。2、结果能够直观，同时做到对数据结果的简单的统计分析。三、实现1、输入的数据文件内容如下(1条数据内容少，1条数据内容超长，3条数据内容正常)：kaka 1 28hua 0 26chao 1tao ...

2011-07-07 08:35:26 167

原创 hadoop如何添加节点

1.部署hadoop 和普通的datanode一样。安装jdk，ssh 2.修改host 和普通的datanode一样。添加namenode的ip 3.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 4.在新节点的机器上，启动服务 Java代码 [root@slave-004 hadoop]# ./bin/hadoop-dae...

2011-07-06 12:43:52 166

原创 Hbase使用已经安装的zookeeper

.修改conf/hbase-env.sh，添加jdk支持 Java代码 export JAVA_HOME=/usr/local/jdk export HBASE_MANAGES_ZK=false export JAVA_HOME=/usr/local/jdk export HBASE_MANAGES_ZK=false2.拷贝zookeep...

2011-07-06 12:42:39 293

原创 zookeeper集群的安装

前提是安装完成hadoop 1）下载zookeeper-3.2.2.tar.gz 解压到每台服务器的/data/soft 解压 Java代码 root@master:/data/soft# tar zxvf zookeeper-3.2.2.tar.gz root@master:/data/soft# tar zxvf zookeeper-3.2.2.tar.g...

2011-07-06 12:39:11 118

原创 hbase配置手册

Hbase配置手册 1）下载hbase 解压到每台服务器的/data/soft 解压 Java代码 root@master:/data/soft# tar zxvf hbase-0.90.0.tar.gz root@master:/data/soft# tar zxvf hbase-0.90.0.tar.gz建立软连 Java代码 root@ma...

2011-07-06 12:37:54 145

原创 hadoop如何恢复namenode

Namenode恢复 1.修改conf/core-site.xml,增加 Xml代码 <property> <name>fs.checkpoint.period</name> <value>3600</value> <des...

2011-07-06 12:36:44 354

原创 Hadoop删除节点（Decommissioning Nodes）

1.集群配置修改conf/hdfs-site.xml文件 Xml代码 <property> <name>dfs.hosts.exclude</name> <value>/data/soft/hadoop/conf/excludes</value> <descrip...

2011-07-06 11:52:23 843

原创 hadoop知识点整理

1. Hadoop 是什么？Hadoop 是一种使用 Java 编写的分布式计算平台。它吸收了 Google 文件系统和 MapReduce 等产品的特性。详情参见 HadoopMapReduce。2. Hadoop 运行于什么平台？1. Java 1.5.x 或更高版本（推荐使用 Sun 的实现版本）；2.支持 Linux 与 Windows 操作系统。在 BSD、Mac OS/...

2011-07-06 11:51:19 201

nutch-1.x分布式索引指定

1、nutch-1.x中在crawl.java中。最后有这么一句话。 indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));它会把crawldb，linkdb以及segments，进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的d...

2011-07-04 17:15:40 142

原创喜欢hadoop的同学们值得一看

海量数据正在不断生成，对于急需改变自己传统IT架构的企业而言，面对海量数据，如何分析并有效利用其价值，同时优化企业业务已成为现代企业转型过程中不可避免的问题。作为海量数据处理的一个重要工具——Hadoop也开始受到了越来越多人的关注。第四届Hadoop大会——Hadoop Summit 2011大会6月29日在Santa Clara举行了，备受关注的Yahoo新成立的子公司——Horton...

2011-07-03 15:50:22 157

原创 hadoop优化

一. conf/hadoop-site.xml配置, 略过. 二. 注重job重用, 主要是设计key和自定义OutputFormat, 将能合并的mapred job合并.举例 : 用户访问行为(userid, ip, cookie), 分别统计每个用户的ip数和cookie数.(a). 把userid和字段存储到key中public class UserKey implements Writa...

2011-07-03 15:43:00 112