- 博客(17)
- 收藏
- 关注
原创 CDH5.11.1 升级spark2.x
环境介绍:在我的CDH5.11.1的集群中,默认已经安装的spark是1.6版本,这里需要将其升级为spark2.1版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。我尝试了安装spark2.0版本和spark2.1版本,均告成功。这里做一下安装spark2.1版本的步骤记录。...
2018-03-14 14:10:46 906 2
原创 kafka动态增加topic副本
Kafka集群机器如下机器名ip地址broker.idcomputer910.113.176.13014computer1010.113.176.13112computer1110.113.176.13213computer1210.113.176.133430computer1310.113.176.134431computer1410.113.176.135432查看 topic 列表/opt/cloudera/par
2021-02-26 15:02:47 662
原创 Flume部署及配置
Flume Agent介绍: Flume Agent 连接: Flume 聚合: Flume 多路: Flume Load Balance 用户行为日志采集 Nginx 日志采集 首先一定要明确 flume一般企业搭建是两层:第一层是采集层、第一层是聚合层。 比如这样的架构。 具体,怎么部署呢? 第一种情况(flume只部署在一台机
2017-06-13 23:03:48 2266
原创 大数据,hadoop,spark,hive,ZooKeeper,kafka,flume等组件环境搭建
大数据环境搭建1、Virtual Box 4.1 2、CentOS 6.5 3、JDK 1.7 4、SecureCRT(自己下载) 5、WinSCP(自己下载) 6、Hadoop 2.4.1 7、Hive 0.13 8、ZooKeeper 3.4.5 9、kafka_2.9.2-0.8.1 10、Spark 1.3.0 11、Spark 1.5 12、flume-ng-1.5.
2017-03-30 18:20:20 6668
原创 Hive操作表分区
创建分区表语句,使用关键字partition partitionsa、单分区建表语句:b、 双分区建表语句:添加分区 删除分区 数据加载进分区表 查看分区
2016-12-06 17:08:54 629
原创 Flume+Kafka+Spark-Streaming的实时流式处理完整流程
基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程1、环境准备,四台测试服务器spark集群三台,spark1,spark2,spark3kafka集群三台,spark1,spark2,spark3zookeeper集群三台,spark1,spark2,spark3日志接收服务器, spark1日志收集服务器,Redis (这台机器用来做redis开发的,现在用来做日志
2016-11-08 10:06:14 2004
原创 大数据配置集群ssh免密码登录
这里以三台机器为例。 1、首先在三台机器上配置对本机的ssh免密码登录 执行命令:ssh-keygen -t rsa 生成本机的公钥,过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了 cd /root/.ssh cp id_rsa.pub authorized
2016-09-08 11:06:24 1721
原创 centos中spark1.3.1环境搭建
一、Java安装 1、安装包准备: 首先到官网下载jdk,http://www.oracle.com/technetwork/java/javase/downloads /jdk7-downloads-1880260.html,我下载jdk-7u79-linux-x64.tar.gz,下载到主目录 2、解压安装包 通过终端在/usr/local目录下新建java文件夹,命令行: sudo
2016-07-06 14:32:57 416
原创 Java中Set,List,Map的区别
Set,List,Map的区别 java集合的主要分为三种类型:Set(集)List(列表)Map(映射)要深入理解集合首先要了解下我们熟悉的数组: 数组是大小固定的,并且同一个数组只能存放类型一样的数据(基本类型/引用类型),而JAVA集合可以存储和操作数目不固定的一组数据。 所有的JAVA集合都位于 java.util包中! JAVA集合只能存放引用类型的的数据,不能存放基本数据类型。
2016-06-30 09:38:00 1278 5
原创 使用storm实现实时大数据分析
简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop”。然而Storm
2016-06-21 18:31:01 1111
原创 HBase性能优化方法
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。Auto Flash通过调用HTable.setAutoFlushTo(false)方法可以将HTable写客户端自动flush关闭,这样可以批量写入数据到HBase,而不是有一条put就执行一次更新,只有当put填满客户端写缓存的时候,才会向HBase服务端发起写请求。默认情况下auto flush是开启的。Write B
2016-06-21 17:08:37 405
转载 HBase的RowKey设计原则
HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有两种方式:1、通过get方式,指定rowkey获取唯一一条记录 2、通过scan方式,设置startRow和stopRow参
2016-06-20 17:44:46 2181
原创 hive基础部分
问题收集: Hive调试模式: 通过hive -hiveconf hive.root.logger=DEBUG,console 进入Hive,即调试模式,可以看到明细日志。 比如遇到如下卡住不动、或其他任何报错时,都可以这样排查:2、8032 是ResourceManager的端口,如何报错是之前添加过Yarn的残留造成http://www.tuicool.com/articles/BB3e
2016-06-19 18:07:08 586
原创 大数据Kafka
1、Kafka下载: wget https://archive.apache.org/dist/kafka/0.8.1/kafka_2.9.2-0.8.1.tgz 解压 tar zxvf kafka_2.9.2-0.8.1.tgz由于kafka使用scala编写,需要下载scala相关的库2、下载安装sbt: wget http://repo.scala-sbt.org/scalasbt/sb
2016-06-14 14:02:07 682
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人