mapreduce来清洗数据生成RCFile

-libjars=$HIVE_HOME/lib/hive-exec-0.12.0-cdh5.1.0.jar,$HIVE_HOME/lib/mapred.jar \ -outputformat com.ksc.dc.maperd.Text2RCFOutputFormat \ 调用jar时传递上面的...

2015-02-12 19:34:35

阅读数 1456

评论数 1

jstat 详解

jstat        1. jstat -gc pid             可以显示gc的信息,查看gc的次数,及时间。             其中最后五项,分别是young gc的次数,young gc的时间,full gc的次数,full gc的时间,gc的总时间。...

2015-02-11 16:22:41

阅读数 517

评论数 0

批量添加hadoop节点,初始化hadoop机器

全部内容如下: authorized_keys -- CDH主节点的key hosts -- 所有机器的hosts配置 init_hadoop.sh -- 分发其他文件到各个节点 init_hdp.sh -- 为hadoop用户生成key init_root.sh -- 初始化系统变...

2015-02-04 11:07:12

阅读数 708

评论数 0

大数据计算平台Spark内核全面解读

1、Spark介绍       Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着 Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,Spark在Daytona Gray S...

2015-02-03 11:57:03

阅读数 984

评论数 0

Spark Streaming实例分析

转载地址:http://www.aboutyun.com/thread-8901-1-1.html 这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照《Spark Streaming编程讲解 》。 Example代码分析 val ssc...

2015-02-02 21:00:03

阅读数 5707

评论数 0

spark问题记录

问题导读 1、当前集群的可用资源不能满足应用程序的需求,怎么解决? 2、内存里堆的东西太多了,有什么好办法吗? 1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your...

2015-02-01 12:50:54

阅读数 665

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭