![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 73
一条大红龙
J2EE,oracle,linux,EXT
展开
-
Hadoop 从零开始学习系列-wordCount
学习基于hadoop2.5.2版本WordCount做为hadoop的hello world程序,今天花了半天时间,终于跑出了结果,以下记录过程:1.建立maven工程,加载hadoop相关jar包。目录结构如下:pom.xml配置如下:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="h原创 2015-01-09 16:20:42 · 1993 阅读 · 1 评论 -
Hadoop 从零开始学习系列-hive从元数据生成表结构、分区等建表语句
继上一章说到倒完数据后,这次需要把表结构及分区信息迁移到新集群上,并且load数据。由于表个数及分区个数太多。所以必须通过元数据生成建表及分区语句。元数据的配置在hive-site.xml配置图如下:此处使用pgsql来存储。所有的元数据表如下:其中比较重要的表为:TBLS:存储所有表信息的表PARTITION_KEYS:存储所有分区的key原创 2015-01-26 13:48:10 · 2713 阅读 · 2 评论 -
Hadoop 从零开始学习系列-hadoop版本升级之文件迁移
此次版本从Hadoop2.0.0-cdh4.7.0升级到Hadoop 2.0.0-chd5.3.0 此文只说hadoop部署后文件迁移,有两种方式,一种是distcp,另一种是fastcopy,但是fastcopy需要用facebook的jar,且这个fastcopy.java类还依赖了其他的包中的类,感觉太麻烦,所以没深入研究,不知道各位看官是否有方法。1.distcp先把dis原创 2015-01-13 11:45:04 · 2872 阅读 · 0 评论 -
hdfs性能调优
参照官方文档:http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_yarn_tuning.html1)对YARN调优:我们实际是2颗CPU,一共24核心数,上面的服务用掉了5核,还剩下24-5=19核心我们实际的64G的内存,64-1-1-(64*原创 2015-03-20 17:47:32 · 8070 阅读 · 0 评论 -
Hadoop 从零开始学习系列-hive与hbase外部关联表建立及数据导入
由于项目中要把统计的结果提供给外部使用,由于hive查询启动mapreduce等等太慢,所以考虑把数据导入到hbase,用hbase实现。其中调研过用bulkload来把数据导入hbase。这个下篇再记。此篇只记hive建立外部表及数据导入建立外部表的sqlcreate table test_outside (key string,sip string,cip string) stor原创 2015-04-16 17:19:48 · 3351 阅读 · 0 评论 -
Hadoop 从零开始学习系列-bulk load研究
以下场景适合应用bulk load1.大批量数据导入,可以适用bulkload 来减轻regionserver的负载第一步,把HDFS文件转化成Hfile文件,第二步,把Hfile文件move到hbase里代码如下:package com.cloudera.examples.hbase.bulkimport;import java.io.IOException;原创 2015-04-16 17:38:32 · 1593 阅读 · 0 评论 -
Cloudera Manager 5.3.2 和 CDH5.3.2 环境配置
系统环境9台DELL R720xd服务器(192.168.3.245-253),1台R410master节点(192.168.3.243)网卡:1000M9台DELL R720xd服务器各有12*4T磁盘。网络环境内网Centos6.6 x64 (Final) 1、准备工作卸载系统自带OPEN-JDK(所有节点)安装好的Centos系统有时会自动原创 2015-03-20 17:43:17 · 5144 阅读 · 0 评论 -
kafka及jafka命令及生产者代码实现
kafka jafka 命令原创 2015-05-27 17:09:37 · 7446 阅读 · 0 评论