分布式框架
文章平均质量分 93
gmHappy
从不敢夜郎自大,但也不至于妄自菲薄,只是想做一个靠本事吃饭的手艺人
展开
-
CentOS7搭建Storm集群及基础操作
前提安装Kafka前需要先安装zookeeper集群,集体安装方法请参照我的另一篇文档Storm安装下载 wget https://mirrors.tuna.tsinghua.edu.cn/apache/storm/apache-storm-1.1.0/apache-storm-1.1.0.tar.gz解压tar -zxvf apache-storm-1.1.0.tar.gz移动文件夹mv apa...原创 2018-04-25 17:45:09 · 2990 阅读 · 0 评论 -
Storm消费Kafka值得注意的坑
问题描述: kafka是之前早就搭建好的,新建的storm集群要消费kafka的主题,由于kafka中已经记录了很多消息,storm消费时从最开始消费问题解决: 下面是摘自官网的一段话:How KafkaSpout stores offsets of a Kafka topic and recovers in case of failuresAs shown in the above Kafk...翻译 2018-04-25 17:01:25 · 7588 阅读 · 6 评论 -
Linux基于Hadoop2.8.0集群安装配置Hive2.1.1及基础操作
前言安装Apache Hive前提是要先安装hadoop集群,并且hive只需要在hadoop的namenode节点集群里安装即可,安装前需保证Hadoop已启(动文中用到了hadoop的hdfs命令)。关于如何安装Hadoop集群请参照:CentOS7搭建Hadoop2.8.0集群及基础操作与测试下载Apache Hadoop下载地址:http://hive.apache.org/downloa...原创 2018-05-03 16:31:46 · 2547 阅读 · 0 评论 -
Spark集成Kafka实时流计算Java案例
package com.test;import java.util.*;import org.apache.spark.SparkConf;import org.apache.spark.TaskContext;import org.apache.spark.api.java.*;import org.apache.spark.api.java.function.*;import o...原创 2018-05-03 16:39:15 · 4232 阅读 · 0 评论 -
Spark2.0集成Hive操作的相关配置与注意事项
前言已完成安装Apache Hive,具体安装步骤请参照,Linux基于Hadoop2.8.0集群安装配置Hive2.1.1及基础操作补充说明Hive中metastore(元数据存储)的三种方式:内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库。配置文件 hive...原创 2018-05-05 13:14:48 · 3551 阅读 · 0 评论 -
Sprak2.0 Streaming消费Kafka数据实时计算及运算结果保存数据库代码示例
package com.gm.hive.SparkHive;import java.util.Arrays;import java.util.Collection;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Properties;import org.ap...原创 2018-05-07 14:42:07 · 2972 阅读 · 0 评论 -
Spark2.0基于广播变量broadcast实现实时数据按天统计
package com.gm.hive.SparkHive;import java.text.SimpleDateFormat;import java.util.Arrays;import java.util.Collection;import java.util.Date;import java.util.HashMap;import java.util.List;import...原创 2018-05-08 16:04:07 · 4806 阅读 · 0 评论