- 博客(13)
- 收藏
- 关注
原创 cdh6.3.2+kerberos+sentry+hue+hive 库表权限管理
作为个人笔记 主要关注两个点 1、sentry中的sentry.service.admin.group必定与hue界面添加的用户及用户组名称保持一致; 2、在hue上的安全性设置中,role角色中如果添加了server=sentry_server权限,意味着所有db都会有权限。 这个权限很好用,如果hue用户没有某个库、表的权限,那就不展示该表、库。很适用生产数据平台。 ...
2020-04-22 16:13:30 1151
原创 继续排坑(一,数仓统一规则)
在做数据仓库的时候,最关键、最首要的工作就是导数据! 导数据的时候,最关键、最首要的工作就是数据统一规则! 1、空数据 2、字符串中空数据 3、脏数据 4、字段名统一 5、字段类型统一 ... 这里要讲的是两个坑: one:第一个坑比较常见,就是第五个统一规则里面出来的,1)mysql的字段类型是tinyint(1) ,在用sqoop导数的时候,连接数据库就要有设置tinyInt...
2019-07-12 17:35:46 519
原创 sqoop 冷知识
sqoop中,我们都知道可以指定关系型数据库字段导入hive 有两种方式: 第一种:用query查询语句把结果存放在hdfs 第二种:用column指定字段到hdfs 表面看似没差别,但这两种有底层区别, 前者是直接结果字段为指定字段, 后者则是先从关系型数据库查询所有,再获取指定字段存入hdfs作为结果集。(在执行日志中,可以看到首先打印出来的是INFO manager.Sql...
2019-07-01 14:55:32 194
原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——hue+hive数据库权限
由于数据库用于多个部门,每个人都可以对数据库进行增删改查,需要对数据库的操作进行权限限制。 在hue界面创建登录用户hivetest 在hive-site.xml的Hive和HiveServer2高级配置中添加配置 <property> <name>hive.security.authorization.enabled</name> <value&...
2019-04-12 09:33:49 250
原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——linux系统安装rz/sz
编译安装 root 账号登陆后,依次执行以下命令: cd /tmp wget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gz tar zxvf lrzsz-0.12.20.tar.gz && cd lrzsz-0.12.20 ./configure && make && make insta...
2019-04-12 09:32:25 155
原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——hue增加spark交互式
需要准备 安装包 livy-0.5.0-incubating-bin.tar.gz hue.ini配置 [desktop] app_blacklist= [spark] livy_server_host=master.dffl.com livy_server_port=8998 livy_server_session_kind=yarn [notebook] show_notebooks=tr...
2019-04-12 09:31:22 232
原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——bug解决方案
关于spark2生成部署失败 首先我们需要找到此处日志目录,并不是/opt/cloudera-manager/cm-5.13.3/log。针对使用tar.gz包进行离线安装的目录,日志应该在:/opt/cloudera-manager/cm-5.13.3/run/cloudera-scm-agent/process/ccdeploy_spark-conf_etcsparkconf.cloud...
2019-04-12 09:29:31 362
原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——搭建
主机系统 centos7系统安装(5台) 安装前准备 JDK jdk-8u191-linux-x64.tar.gz scala-2.11.8.tgz ClouderaManager安装包 cloudera-manager-centos7-cm5.13.3_x86_64.tar.gz CDH相关包 CDH-5.13.3-1.cdh5.13.3.p0.2-el7.parcel CDH-5.13.3-1...
2019-04-12 09:19:54 457
原创 hdp VS cdh 神坑的队列——调度器
前段时间,重建集群,使用的是hdp一套环境。先前都是用的cdh版本,可谓被虐的可以! 先来说说调度器! 调度器有那么两个大类,一种是排队型的(FIFO Scheduler(这款无需配置)、Capacity Scheduler),一种是插队型的(Fair cheduler)。 那么我们作为大数据开发,数据仓库使用者,作为一个文明人,当然必须要让小孩、老人、孕妇插队了。 问题来了,找了大半天插...
2018-11-28 17:54:58 1678 2
原创 各位同志,关于c3p0报错:Acquisition Attempt Failed!!! Clearing pending acquires. While trying to acquire a nee
网上很多都有让检查配置文件有没有写错 <property name="jdbcUrl">jdbc:mysql://localhost:3306/test</property> <property name="driverClass">com.mysql.jdbc.Driver</property> <property name
2018-03-20 14:47:58 24197 13
转载 HBase 在HDFS 上的目录树
总所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 这里只介绍系统级别的目录树。 一、0.94-cdh4.2.1版本 系统级别的一级目录如下,用户自定义的均在这个/hbase下的一级子目录下 /hbase/-ROOT- /hbase/.META. /hbase/.archive /hbase/.corrupt
2017-10-30 10:39:02 411
原创 有关大数据框架的一些杂乱bug
1、数据分片 用scala分片每行数据时,遇到最后几个字段为空值,需要用到split函数中的参数arg1 split(arg0:String, arg1:Int) 1、当arg1 > 0时,它限制arg0最多成功匹配arg1.length() -1次,也就是说字符串最多被分成arg1个子串。此时split会保留分割出的空字符串(当两个arg0连续匹配或者arg0在头尾匹配,会产生空字符串
2017-09-13 13:41:17 510
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人