HDP 平台的运用
在屋顶听歌
Stay Focused And Work Hard !!!
展开
-
Ldap 之API 简单运用
直接上代码package com.bms.service.ldapimpl;import java.util.ArrayList;import java.util.List;import org.jboss.logging.Logger;import com.bms.service.LdapApi;import com.bms.utils.PropertyUtil;import com.unb原创 2017-08-03 21:26:42 · 5679 阅读 · 1 评论 -
Yarn 资源管理
环境说明:HDP2.5 + Ambari 在linux centos6上搭建的集群一、Yarn 资源管理简述:yarn默认提供了两种调度规则,capacity scheduler和fair scheduler。现在使用比较多的是capacity scheduler。具体的实现原理和调度源码可以google一下capacity scheduler。Capacity调度器说的通俗点,可以理解成一个原创 2017-11-07 21:20:24 · 4813 阅读 · 0 评论 -
Ambari 监控信息的提取
场景: * 通过Ambari + HDP搭建的大数据基础管理平台,目前用户不想登录Ambari而想直接将Ambari的监控相关信息整合到其他的Web项目中。 如将下面资源使用用量相关的提取出来解决方式:本来是想着找到Ambari Dashboard功能的相关链接,然后通过模拟登录将这些视图提取出来,或者通过Ambari自带的权限管理设置用户只拥有查看Ambari Dashboard视力的权限。最原创 2017-09-21 15:14:29 · 4652 阅读 · 1 评论 -
Sqoop1 安装及Hive/Hbase数据与Mysql数据互导(九)
一、通过 Ambari 安装 Sqoop通过ambari 进行自动安装,ambari 只安装了sqoop client。 网上有说如果要调用 sqoop api 来操作sqoop 则需要安装sqoop server 。目前笔者还没用到其api,所以后面有待深究。安装步骤: ambari–> Actions –> sqoop 进入安装,安装完后无需要进行任何配置便可。 安装完成后如下图所示:原创 2017-08-11 21:01:16 · 1243 阅读 · 0 评论 -
hive中解决中文乱码
注:转自 hive中解决中文乱码一.个人初始开发环境的基本情况以及Hive元数据库说明①hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置)②hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://crxy99:3306/hive_cz3q?createDatabaseIfNotExist=true③普通情况下咱转载 2017-12-15 14:35:45 · 9689 阅读 · 1 评论 -
HDP2.5更换集群IP
场景: linux centos6.9 Ambari + HDP 目前集群节点有3个,运行一切正常。由于客户ip发生变化,需要统一将原先的ip全部替换。注:首先将dataNode目录下的数据进行备份1、通过Ambari界面将所有服务停了2、修改hosts(win/linux)(1)修改linux 之hosts(所有节点都得修改)[root@hdp39 network-scrip原创 2017-12-26 23:24:51 · 2253 阅读 · 0 评论 -
Ambari下Hdp集群添加节点
一、修改主机名[root@localhost ~]# vi /etc/hosts (集群中所有机器都得添加新添加进来的机器) 192.168.123.4 hdp04.chbigdata.org.cn hdp04 192.168.123.5 hdp05.chbigdata.org.cn hdp05 192.168.123.6 hdp06.chbigdata.org.cn hdp06 192.1原创 2017-12-25 23:42:10 · 6015 阅读 · 0 评论 -
Hdfs 权限与Ranger 权限管理的控制
本文主要探讨Ranger对Hdfs文件权限控制的一些细节问题笔者环境:Ambari + Hdp2.5 (安装了Ranger, Kerberos)1、首先是Hdfs 源文件中文件对外开放的权限如下:新建文本文档.txt 对应的权限如下-rwxrwx---对应的权限说明权限说明:对资源所拥有者以及分组内的用户开放读写执行权限,其他用户没有任何权限用户project2 权限信息1、project2没有加...原创 2018-01-02 17:24:51 · 9162 阅读 · 3 评论 -
Phoenix 快速入门
一、Phoenix 介绍:Phoenix 操作hbase有两种方式,创建表,创建视图。 区别如下: 创建表的话,就可以对HBase进行插入,查询,删除操作。 视图的话,一般就只可以进行查询操作。 虽然看起来,表的功能,比视图更强大一些。但是就像是mysql等关系型数据库 一样,删除表操作,会将表删掉。但是删除视图操作,却不会影响原始表的结构。 因为使用phoenix 创建...原创 2017-11-07 21:00:54 · 5535 阅读 · 1 评论 -
数据仓库之-历史数据存储方案
现状:隔一段时间去数据中心获取一次数据,每次获取数据时只有极少部分数据会发生变更,但是系统需要溯源数据变更的情况。方案: 现状表+历史表结合的方式: 现状表:即数据的当前、最新状态的表;基本上可以认为是目前的数据不变; 历史表:即保存数据的历史变更记录,通过这个记录可以还原出数据的所有变更情况; 根据业务情况,可以查询现状表或者历史表。技术实现: 将全量数据存储在Hbase中,现状数原创 2017-11-07 21:06:08 · 14701 阅读 · 0 评论 -
SmartBi 单点登录的实现
SmartBi 单点登录的实现准备Smartbi服务器加载LoginToken扩展包下载路径: http://wiki.smartbi.com.cn/download/attachments/27001766/logintoken.ext?version=3&modificationDate=1498640793000&api=v2修改SmartBi 的配置登录到 Smartbi 配置管理页面,地原创 2017-11-07 10:44:10 · 6660 阅读 · 4 评论 -
Flume 入门与简单运用
一、Flume 简述Flume是什么:通俗地说 Flume 就是一个日志采集工具。版本进化过程:分为 Flume-og(0.9x 已停止更新了)、Flume-ng(1.x) 两个版本,Flume-ng最明显的改动就是取消了集中管理配置的 Master 和 Zookeeper,变为一个纯粹的传输工具。Flume-ng另一个主要的不同点是读入数据和写出数据现在由不同的工作线程处理(称为 Runner原创 2017-08-25 15:44:59 · 2593 阅读 · 0 评论 -
flume将指定目录下文件解析后入到Hbase(开启kerberos)
运用 Spooling Directory Source 可以实现将将要收集的数据放置到”自动搜集”目录中。这个Source将监视该目录,实时解析新文件。事件处理逻辑是可插拔的,当一个文件被完全读入通道,它会被重命名或可选的直接删除。本例为重命名。要注意的是,放置到自动搜集目录下的文件不能修改,如果修改,则flume会报错。另外,也不能产生重名的文件,如果有重名的文件被放置进来,则flume会报错原创 2017-08-28 11:27:55 · 3465 阅读 · 0 评论 -
Hive 整合Hbase(hbase.TableNotFoundException)
由于数据需要经常改动,所以将数据存储在Hbase中,通过Hive关联Hbase表的方式来对Hbase进行查询操作。 原先我是在本地通过虚拟机搭建的伪分布式,因此做Hive关联Hbase操作时需要做不少的操作,比如将Hbase相关的jar添加到Hive,将Hbase配置文件添加到hadoop/conf目录下等。具体操作可见如下文章: http://blog.csdn.net/u013850277/原创 2017-08-23 22:46:00 · 6100 阅读 · 1 评论 -
JDBC 连接Hive 简单样例(开启Kerberos)
运用 Ambari 搭建的HDP 集群,由于开启了kerberos ,对外提供Hive数据时统一用JDBC 的方式,所以写了下面这么一个简单样例供第三方数据接入参考。代码如下所示:package com.bmsoft.hive.impl;import org.apache.hadoop.security.UserGroupInformation;import java.io.IOExceptio原创 2017-08-16 22:43:13 · 25871 阅读 · 2 评论 -
Hive 实现脱敏以及ETL 过程(开启kerberos)
业务场景及实现原理:通过采集工具将用户数据采集到 Hive 库;如果将数据采集到Hbase表,再通过Hive创建对应的外部表关联Hbase表,这个场景同样适用,只不过脱敏后的数据将存在Hive中而不是Hbase中。将 采集到的Hive 数据进过一定的脱敏算法将数据共享出去;为了防止请求被非法模仿,因而编写了一个访问Ip 鉴权类,也就是设置了访问ip白名单,只有在白名单上的ip才可以访问接...原创 2017-08-18 00:01:12 · 13314 阅读 · 0 评论 -
Ranger 之java 接口操作
简单粗暴直接上代码package com.bms.service.rangerimpl;import org.apache.ranger.admin.client.datatype.RESTResponse;import org.apache.ranger.plugin.model.RangerPolicy;import org.apache.ranger.plugin.util.RangerR原创 2017-08-03 21:34:48 · 5948 阅读 · 13 评论 -
Java 操作Hbase 简单案例 (Kerberos已开启)
package com.hbase;/** * @time 2017年7月22日 * @author YeChunBo * 类说明: 操作 Hbase (Kerberos已开启) * Hbase 版本号:1.2.4 */import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;i原创 2017-08-23 23:07:57 · 6634 阅读 · 2 评论 -
Java 操作HDFS 简单案例 (Kerberos已开启)
直接上代码如下package com.hdfs.demo;import java.io.ByteArrayOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI;import java.net.URISyntaxExc原创 2017-09-22 17:22:31 · 1498 阅读 · 2 评论 -
HbaseRegionserver通过脚本自动重启
环境:Hdp2.5 + hbase 1.2 + linux环境,5个数据节点场景:由于平台提供出去使用,时常有一段时间进行大量数据的写入与查询,这时可能会导致Hbase RegionServer出现宕机的情况。为了保证对数据写入与查询不产生影响,分别间隔一定时间对ResionServer检测是否宕机,如果宕机则重启,否则不做处理。脚本如下:[root@bigdata41 proje...原创 2018-10-10 13:14:57 · 2004 阅读 · 0 评论