自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 cdh6.3.2+kerberos+sentry+hue+hive 库表权限管理

作为个人笔记 主要关注两个点 1、sentry中的sentry.service.admin.group必定与hue界面添加的用户及用户组名称保持一致; 2、在hue上的安全性设置中,role角色中如果添加了server=sentry_server权限,意味着所有db都会有权限。 这个权限很好用,如果hue用户没有某个库、表的权限,那就不展示该表、库。很适用生产数据平台。 ...

2020-04-22 16:13:30 1111

原创 继续排坑(一,数仓统一规则)

在做数据仓库的时候,最关键、最首要的工作就是导数据! 导数据的时候,最关键、最首要的工作就是数据统一规则! 1、空数据 2、字符串中空数据 3、脏数据 4、字段名统一 5、字段类型统一 ... 这里要讲的是两个坑: one:第一个坑比较常见,就是第五个统一规则里面出来的,1)mysql的字段类型是tinyint(1) ,在用sqoop导数的时候,连接数据库就要有设置tinyInt...

2019-07-12 17:35:46 466

原创 sqoop 冷知识

sqoop中,我们都知道可以指定关系型数据库字段导入hive 有两种方式: 第一种:用query查询语句把结果存放在hdfs 第二种:用column指定字段到hdfs 表面看似没差别,但这两种有底层区别, 前者是直接结果字段为指定字段, 后者则是先从关系型数据库查询所有,再获取指定字段存入hdfs作为结果集。(在执行日志中,可以看到首先打印出来的是INFO manager.Sql...

2019-07-01 14:55:32 168

原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——hue+hive数据库权限

由于数据库用于多个部门,每个人都可以对数据库进行增删改查,需要对数据库的操作进行权限限制。 在hue界面创建登录用户hivetest 在hive-site.xml的Hive和HiveServer2高级配置中添加配置 <property> <name>hive.security.authorization.enabled</name> <value&...

2019-04-12 09:33:49 231

原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——linux系统安装rz/sz

编译安装 root 账号登陆后,依次执行以下命令: cd /tmp wget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gz tar zxvf lrzsz-0.12.20.tar.gz && cd lrzsz-0.12.20 ./configure && make && make insta...

2019-04-12 09:32:25 132

原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——hue增加spark交互式

需要准备 安装包 livy-0.5.0-incubating-bin.tar.gz hue.ini配置 [desktop] app_blacklist= [spark] livy_server_host=master.dffl.com livy_server_port=8998 livy_server_session_kind=yarn [notebook] show_notebooks=tr...

2019-04-12 09:31:22 213

原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——bug解决方案

关于spark2生成部署失败 首先我们需要找到此处日志目录,并不是/opt/cloudera-manager/cm-5.13.3/log。针对使用tar.gz包进行离线安装的目录,日志应该在:/opt/cloudera-manager/cm-5.13.3/run/cloudera-scm-agent/process/ccdeploy_spark-conf_etcsparkconf.cloud...

2019-04-12 09:29:31 335

原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——搭建

主机系统 centos7系统安装(5台) 安装前准备 JDK jdk-8u191-linux-x64.tar.gz scala-2.11.8.tgz ClouderaManager安装包 cloudera-manager-centos7-cm5.13.3_x86_64.tar.gz CDH相关包 CDH-5.13.3-1.cdh5.13.3.p0.2-el7.parcel CDH-5.13.3-1...

2019-04-12 09:19:54 435

原创 hdp VS cdh 神坑的队列——调度器

前段时间,重建集群,使用的是hdp一套环境。先前都是用的cdh版本,可谓被虐的可以! 先来说说调度器! 调度器有那么两个大类,一种是排队型的(FIFO Scheduler(这款无需配置)、Capacity Scheduler),一种是插队型的(Fair cheduler)。 那么我们作为大数据开发,数据仓库使用者,作为一个文明人,当然必须要让小孩、老人、孕妇插队了。 问题来了,找了大半天插...

2018-11-28 17:54:58 1650 2

原创 各位同志,关于c3p0报错:Acquisition Attempt Failed!!! Clearing pending acquires. While trying to acquire a nee

网上很多都有让检查配置文件有没有写错    &lt;property name="jdbcUrl"&gt;jdbc:mysql://localhost:3306/test&lt;/property&gt;    &lt;property name="driverClass"&gt;com.mysql.jdbc.Driver&lt;/property&gt;    &lt;property name

2018-03-20 14:47:58 24044 13

转载 面试专供

http://www.cnblogs.com/cxzdy/category/776252.html

2017-11-01 10:15:37 236

转载 HBase 在HDFS 上的目录树

总所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 这里只介绍系统级别的目录树。 一、0.94-cdh4.2.1版本 系统级别的一级目录如下,用户自定义的均在这个/hbase下的一级子目录下 /hbase/-ROOT- /hbase/.META. /hbase/.archive /hbase/.corrupt

2017-10-30 10:39:02 387

原创 有关大数据框架的一些杂乱bug

1、数据分片 用scala分片每行数据时,遇到最后几个字段为空值,需要用到split函数中的参数arg1 split(arg0:String, arg1:Int) 1、当arg1 > 0时,它限制arg0最多成功匹配arg1.length() -1次,也就是说字符串最多被分成arg1个子串。此时split会保留分割出的空字符串(当两个arg0连续匹配或者arg0在头尾匹配,会产生空字符串

2017-09-13 13:41:17 470

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除