heavylgf-CSDN博客

原创 CDH5.11.1 升级spark2.x

环境介绍：在我的CDH5.11.1的集群中，默认已经安装的spark是1.6版本，这里需要将其升级为spark2.1版本。经查阅官方文档，发现spark1.6和2.x是可以并行安装的，也就是说可以不用删除默认的1.6版本，可以直接安装2.x版本，它们各自用的端口也是不一样的。我尝试了安装spark2.0版本和spark2.1版本，均告成功。这里做一下安装spark2.1版本的步骤记录。...

2018-03-14 14:10:46 906 2

Kafka集群机器如下机器名ip地址broker.idcomputer910.113.176.13014computer1010.113.176.13112computer1110.113.176.13213computer1210.113.176.133430computer1310.113.176.134431computer1410.113.176.135432查看 topic 列表/opt/cloudera/par

2021-02-26 15:02:47 662

原创 Hive中union使用详情

hivehive union语法hive union all

2017-11-24 11:47:36 70278 1

原创 Flume部署及配置

Flume Agent介绍：　　　　　　　　 Flume Agent 连接： Flume 聚合： Flume 多路： Flume Load Balance 用户行为日志采集 Nginx 日志采集首先一定要明确 flume一般企业搭建是两层：第一层是采集层、第一层是聚合层。比如这样的架构。具体，怎么部署呢？第一种情况（flume只部署在一台机

2017-06-13 23:03:48 2266

原创大数据，hadoop,spark,hive,ZooKeeper,kafka,flume等组件环境搭建

大数据环境搭建1、Virtual Box 4.1 2、CentOS 6.5 3、JDK 1.7 4、SecureCRT（自己下载） 5、WinSCP（自己下载） 6、Hadoop 2.4.1 7、Hive 0.13 8、ZooKeeper 3.4.5 9、kafka_2.9.2-0.8.1 10、Spark 1.3.0 11、Spark 1.5 12、flume-ng-1.5.

2017-03-30 18:20:20 6668

原创 Hive操作表分区

创建分区表语句，使用关键字partition partitionsa、单分区建表语句：b、双分区建表语句：添加分区删除分区数据加载进分区表查看分区

2016-12-06 17:08:54 629

原创 SparkSQL内置函数

Spark SQL ， Spark

2016-11-23 13:58:32 10481

原创 Flume+Kafka+Spark-Streaming的实时流式处理完整流程

基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程1、环境准备，四台测试服务器spark集群三台，spark1,spark2,spark3kafka集群三台，spark1,spark2,spark3zookeeper集群三台，spark1,spark2,spark3日志接收服务器， spark1日志收集服务器，Redis (这台机器用来做redis开发的，现在用来做日志

2016-11-08 10:06:14 2004

原创大数据配置集群ssh免密码登录

这里以三台机器为例。 1、首先在三台机器上配置对本机的ssh免密码登录执行命令：ssh-keygen -t rsa 生成本机的公钥，过程中不断敲回车即可，ssh-keygen命令默认会将公钥放在/root/.ssh目录下将公钥复制为authorized_keys文件，此时使用ssh连接本机就不需要输入密码了 cd /root/.ssh cp id_rsa.pub authorized

2016-09-08 11:06:24 1721

原创 Windows下scala环境搭建

Windows 下scala 环境搭建

2016-08-20 14:23:44 465

原创 centos中spark1.3.1环境搭建

一、Java安装 1、安装包准备：首先到官网下载jdk，http://www.oracle.com/technetwork/java/javase/downloads /jdk7-downloads-1880260.html，我下载jdk-7u79-linux-x64.tar.gz，下载到主目录 2、解压安装包通过终端在/usr/local目录下新建java文件夹，命令行： sudo

2016-07-06 14:32:57 416

原创 Java中Set,List,Map的区别

Set,List,Map的区别 java集合的主要分为三种类型：Set（集）List（列表）Map（映射）要深入理解集合首先要了解下我们熟悉的数组：数组是大小固定的，并且同一个数组只能存放类型一样的数据（基本类型/引用类型），而JAVA集合可以存储和操作数目不固定的一组数据。所有的JAVA集合都位于 java.util包中！ JAVA集合只能存放引用类型的的数据，不能存放基本数据类型。

2016-06-30 09:38:00 1278 5

原创使用storm实现实时大数据分析

简单和明了，Storm让大数据分析变得轻松加愉快。当今世界，公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据，网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量，实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发，通常被比作“实时的Hadoop”。然而Storm

2016-06-21 18:31:01 1111

原创 HBase性能优化方法

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。Auto Flash通过调用HTable.setAutoFlushTo(false)方法可以将HTable写客户端自动flush关闭，这样可以批量写入数据到HBase，而不是有一条put就执行一次更新，只有当put填满客户端写缓存的时候，才会向HBase服务端发起写请求。默认情况下auto flush是开启的。Write B

2016-06-21 17:08:37 405

转载 HBase的RowKey设计原则

HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有两种方式：1、通过get方式，指定rowkey获取唯一一条记录 2、通过scan方式，设置startRow和stopRow参

2016-06-20 17:44:46 2181

原创 hive基础部分

问题收集： Hive调试模式：通过hive -hiveconf hive.root.logger=DEBUG,console 进入Hive，即调试模式，可以看到明细日志。比如遇到如下卡住不动、或其他任何报错时，都可以这样排查：2、8032 是ResourceManager的端口，如何报错是之前添加过Yarn的残留造成http://www.tuicool.com/articles/BB3e

2016-06-19 18:07:08 586

原创大数据Kafka

1、Kafka下载： wget https://archive.apache.org/dist/kafka/0.8.1/kafka_2.9.2-0.8.1.tgz 解压 tar zxvf kafka_2.9.2-0.8.1.tgz由于kafka使用scala编写，需要下载scala相关的库2、下载安装sbt： wget http://repo.scala-sbt.org/scalasbt/sb

2016-06-14 14:02:07 682

liuguangfudan的博客