challengedream-CSDN博客

原创 cdh6.3.2+kerberos+sentry+hue+hive 库表权限管理

作为个人笔记主要关注两个点 1、sentry中的sentry.service.admin.group必定与hue界面添加的用户及用户组名称保持一致； 2、在hue上的安全性设置中，role角色中如果添加了server=sentry_server权限，意味着所有db都会有权限。这个权限很好用，如果hue用户没有某个库、表的权限，那就不展示该表、库。很适用生产数据平台。 ...

2020-04-22 16:13:30 1151

原创继续排坑（一，数仓统一规则）

在做数据仓库的时候，最关键、最首要的工作就是导数据！导数据的时候，最关键、最首要的工作就是数据统一规则！ 1、空数据 2、字符串中空数据 3、脏数据 4、字段名统一 5、字段类型统一 ... 这里要讲的是两个坑： one：第一个坑比较常见，就是第五个统一规则里面出来的，1)mysql的字段类型是tinyint(1) ，在用sqoop导数的时候，连接数据库就要有设置tinyInt...

2019-07-12 17:35:46 519

原创 sqoop 冷知识

sqoop中，我们都知道可以指定关系型数据库字段导入hive 有两种方式：第一种：用query查询语句把结果存放在hdfs 第二种：用column指定字段到hdfs 表面看似没差别，但这两种有底层区别，前者是直接结果字段为指定字段，后者则是先从关系型数据库查询所有，再获取指定字段存入hdfs作为结果集。（在执行日志中，可以看到首先打印出来的是INFO manager.Sql...

2019-07-01 14:55:32 194

原创后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——hue+hive数据库权限

由于数据库用于多个部门，每个人都可以对数据库进行增删改查，需要对数据库的操作进行权限限制。在hue界面创建登录用户hivetest 在hive-site.xml的Hive和HiveServer2高级配置中添加配置 <property> <name>hive.security.authorization.enabled</name> <value&...

2019-04-12 09:33:49 250

原创后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——linux系统安装rz/sz

编译安装 root 账号登陆后，依次执行以下命令： cd /tmp wget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gz tar zxvf lrzsz-0.12.20.tar.gz && cd lrzsz-0.12.20 ./configure && make && make insta...

2019-04-12 09:32:25 155

原创后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——hue增加spark交互式

需要准备安装包 livy-0.5.0-incubating-bin.tar.gz hue.ini配置 [desktop] app_blacklist= [spark] livy_server_host=master.dffl.com livy_server_port=8998 livy_server_session_kind=yarn [notebook] show_notebooks=tr...

2019-04-12 09:31:22 232

原创后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——bug解决方案

关于spark2生成部署失败首先我们需要找到此处日志目录，并不是/opt/cloudera-manager/cm-5.13.3/log。针对使用tar.gz包进行离线安装的目录，日志应该在：/opt/cloudera-manager/cm-5.13.3/run/cloudera-scm-agent/process/ccdeploy_spark-conf_etcsparkconf.cloud...

2019-04-12 09:29:31 362

原创后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——搭建

主机系统 centos7系统安装（5台）安装前准备 JDK jdk-8u191-linux-x64.tar.gz scala-2.11.8.tgz ClouderaManager安装包 cloudera-manager-centos7-cm5.13.3_x86_64.tar.gz CDH相关包 CDH-5.13.3-1.cdh5.13.3.p0.2-el7.parcel CDH-5.13.3-1...

2019-04-12 09:19:54 457

原创 hdp VS cdh 神坑的队列——调度器

前段时间，重建集群，使用的是hdp一套环境。先前都是用的cdh版本，可谓被虐的可以！先来说说调度器！调度器有那么两个大类，一种是排队型的（FIFO Scheduler（这款无需配置）、Capacity Scheduler），一种是插队型的（Fair cheduler）。那么我们作为大数据开发，数据仓库使用者，作为一个文明人，当然必须要让小孩、老人、孕妇插队了。问题来了，找了大半天插...

2018-11-28 17:54:58 1678 2

原创各位同志，关于c3p0报错：Acquisition Attempt Failed!!! Clearing pending acquires. While trying to acquire a nee

网上很多都有让检查配置文件有没有写错 <property name="jdbcUrl">jdbc:mysql://localhost:3306/test</property> <property name="driverClass">com.mysql.jdbc.Driver</property> <property name

2018-03-20 14:47:58 24197 13

转载面试专供

http://www.cnblogs.com/cxzdy/category/776252.html

2017-11-01 10:15:37 261

转载 HBase 在HDFS 上的目录树

总所周知，HBase 是天生就是架设在 HDFS 上，在这个分布式文件系统中，HBase 是怎么去构建自己的目录树的呢？这里只介绍系统级别的目录树。一、0.94-cdh4.2.1版本系统级别的一级目录如下，用户自定义的均在这个/hbase下的一级子目录下 /hbase/-ROOT- /hbase/.META. /hbase/.archive /hbase/.corrupt

2017-10-30 10:39:02 411

原创有关大数据框架的一些杂乱bug

1、数据分片用scala分片每行数据时，遇到最后几个字段为空值，需要用到split函数中的参数arg1 split(arg0:String, arg1:Int) 1、当arg1 > 0时，它限制arg0最多成功匹配arg1.length() -1次，也就是说字符串最多被分成arg1个子串。此时split会保留分割出的空字符串（当两个arg0连续匹配或者arg0在头尾匹配，会产生空字符串

2017-09-13 13:41:17 510

阿呆的数据经历