自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 CDH5.11.1 升级spark2.x

环境介绍:在我的CDH5.11.1的集群中,默认已经安装的spark是1.6版本,这里需要将其升级为spark2.1版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。我尝试了安装spark2.0版本和spark2.1版本,均告成功。这里做一下安装spark2.1版本的步骤记录。...

2018-03-14 14:10:46 878 2

原创 kafka动态增加topic副本

Kafka集群机器如下机器名ip地址broker.idcomputer910.113.176.13014computer1010.113.176.13112computer1110.113.176.13213computer1210.113.176.133430computer1310.113.176.134431computer1410.113.176.135432查看 topic 列表/opt/cloudera/par

2021-02-26 15:02:47 622

原创 Hive中union使用详情

hivehive union语法hive union all

2017-11-24 11:47:36 69264 1

原创 Flume部署及配置

Flume Agent介绍:          Flume Agent 连接: Flume 聚合: Flume 多路: Flume Load Balance 用户行为日志采集 Nginx 日志采集 首先一定要明确 flume一般企业搭建是两层:第一层是采集层、第一层是聚合层。 比如这样的架构。 具体,怎么部署呢? 第一种情况(flume只部署在一台机

2017-06-13 23:03:48 2201

原创 大数据,hadoop,spark,hive,ZooKeeper,kafka,flume等组件环境搭建

大数据环境搭建1、Virtual Box 4.1 2、CentOS 6.5 3、JDK 1.7 4、SecureCRT(自己下载) 5、WinSCP(自己下载) 6、Hadoop 2.4.1 7、Hive 0.13 8、ZooKeeper 3.4.5 9、kafka_2.9.2-0.8.1 10、Spark 1.3.0 11、Spark 1.5 12、flume-ng-1.5.

2017-03-30 18:20:20 6592

原创 Hive操作表分区

创建分区表语句,使用关键字partition partitionsa、单分区建表语句:b、 双分区建表语句:添加分区 删除分区 数据加载进分区表 查看分区

2016-12-06 17:08:54 585

原创 SparkSQL内置函数

Spark SQL , Spark

2016-11-23 13:58:32 10429

原创 Flume+Kafka+Spark-Streaming的实时流式处理完整流程

基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程1、环境准备,四台测试服务器spark集群三台,spark1,spark2,spark3kafka集群三台,spark1,spark2,spark3zookeeper集群三台,spark1,spark2,spark3日志接收服务器, spark1日志收集服务器,Redis (这台机器用来做redis开发的,现在用来做日志

2016-11-08 10:06:14 1962

原创 大数据配置集群ssh免密码登录

这里以三台机器为例。 1、首先在三台机器上配置对本机的ssh免密码登录 执行命令:ssh-keygen -t rsa 生成本机的公钥,过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了 cd /root/.ssh cp id_rsa.pub authorized

2016-09-08 11:06:24 1684

原创 Windows下scala环境搭建

Windows 下scala 环境搭建

2016-08-20 14:23:44 436

原创 centos中spark1.3.1环境搭建

一、Java安装 1、安装包准备: 首先到官网下载jdk,http://www.oracle.com/technetwork/java/javase/downloads /jdk7-downloads-1880260.html,我下载jdk-7u79-linux-x64.tar.gz,下载到主目录 2、解压安装包 通过终端在/usr/local目录下新建java文件夹,命令行: sudo

2016-07-06 14:32:57 399

原创 Java中Set,List,Map的区别

Set,List,Map的区别 java集合的主要分为三种类型:Set(集)List(列表)Map(映射)要深入理解集合首先要了解下我们熟悉的数组: 数组是大小固定的,并且同一个数组只能存放类型一样的数据(基本类型/引用类型),而JAVA集合可以存储和操作数目不固定的一组数据。 所有的JAVA集合都位于 java.util包中! JAVA集合只能存放引用类型的的数据,不能存放基本数据类型。

2016-06-30 09:38:00 1239 5

原创 使用storm实现实时大数据分析

简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop”。然而Storm

2016-06-21 18:31:01 1063

原创 HBase性能优化方法

本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。Auto Flash通过调用HTable.setAutoFlushTo(false)方法可以将HTable写客户端自动flush关闭,这样可以批量写入数据到HBase,而不是有一条put就执行一次更新,只有当put填满客户端写缓存的时候,才会向HBase服务端发起写请求。默认情况下auto flush是开启的。Write B

2016-06-21 17:08:37 379

转载 HBase的RowKey设计原则

HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有两种方式:1、通过get方式,指定rowkey获取唯一一条记录 2、通过scan方式,设置startRow和stopRow参

2016-06-20 17:44:46 2146

原创 hive基础部分

问题收集: Hive调试模式: 通过hive -hiveconf hive.root.logger=DEBUG,console 进入Hive,即调试模式,可以看到明细日志。 比如遇到如下卡住不动、或其他任何报错时,都可以这样排查:2、8032 是ResourceManager的端口,如何报错是之前添加过Yarn的残留造成http://www.tuicool.com/articles/BB3e

2016-06-19 18:07:08 551

原创 大数据Kafka

1、Kafka下载: wget https://archive.apache.org/dist/kafka/0.8.1/kafka_2.9.2-0.8.1.tgz 解压 tar zxvf kafka_2.9.2-0.8.1.tgz由于kafka使用scala编写,需要下载scala相关的库2、下载安装sbt: wget http://repo.scala-sbt.org/scalasbt/sb

2016-06-14 14:02:07 634

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除