自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 深入理解Kerberos认证原理

Kerberos是一种网络身份认证协议,它的名字源自希腊神话中的三头犬Kerberos,象征着其强大的保护能力。Kerberos协议的主要目标是通过在不安全的网络环境中提供强大的身份认证,来确保网络服务的安全性。:Kerberos服务器验证用户的凭证,如果凭证有效,服务器会生成一个加密的授权票据(Ticket Granting Ticket,TGT)。:当客户端需要访问特定的网络服务时,它会使用会话密钥生成一个服务票据(Service Ticket),并将其发送给Kerberos服务器。

2023-08-02 17:23:57 465

原创 Hive表锁机制原理以及各种场景的解决方案

hive 锁机制(S锁,X锁) 是由hive的事务管理器出发,锁的原理是 一张表简称A表,我们对A表做查询操作的时候,就会获取到A表的S锁(共享锁), 如果对A表做alter 等其他操作就会获取A表的X锁(排他锁) 如果A表同时拥有S锁和X锁,A表就会死锁。死锁后的现象就是做drop truncate 等操作会很慢一直运行中,因为这时候操作已经阻塞了。

2023-07-25 13:50:48 2170

原创 spark 通过kerberos认证连接impala 获取ResultSet集合转为DataFrame 并写入hive

def main(args: Array[String]): Unit = { val impala_db = args(2) // 查询impala库 val impala_tab = args(3) // 查询表名 val query_where = args(4) //查询条件 如Scan全表传空字符串 val LOGGER = LoggerFactory.getLogger(RimpalaDemo2.getClass)//设置日志 // jdbc url 使用kerbero

2022-06-20 17:29:16 844 2

原创 大数据数仓建模 - 维度建模 实战及思路过程 (四年数仓建模经验 纯干货)

数仓维度建模维度建模方法论:维度建模是以业务过程为驱动先确定某些业务过程 围绕业务过程去建立模型 通常采用自底向上的方法 从明确关键业务过程开始再到明确粒度 最后明确事实在我们项目初期 我们首先要确定的就是 一个数仓建模的设计建模也是整个数仓最核心的工作 数仓的好坏就取决于你的建模数仓建模 四个步骤1. 选择业务过程2.声明粒度3.确定维度4.确定事实我们在建模的过程中 首先要和公司的业务部门 开个小会 一起探讨 选择我们感兴趣的业务线比如...

2021-10-19 08:32:46 3784 1

原创 scala 闭包 + 函数柯力化 + 递归算法 计算阶乘

闭包 : 如果一个函数 访问到了它的外部(局部)变量的值 那么这个函数和他所处的环境 称为闭包函数柯力化: 把一个参数列表的多个参数 变成为多个参数列表 递归算法 : 一个函数/方法在函数/方法体内又调用了本身 我们称之为递归调用 自己调用自己 TODO 求阶乘 递归算法 1)方法调用自身 2 )方法必须要有跳出的逻辑 3)方法调用自身时,传递的参数应该有规律 4)scala中的递归必须声明函数返回值类型...

2021-10-16 11:33:54 169

原创 Hive千亿级数据倾斜解决方案

数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题,任何分布式系统都有几率发生数据倾斜,但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”,为什么说千亿级,因为如果一个任务的数据量只有几百万,它即使发生了数据倾斜,所有数据都跑到一台机器去执行,对于几百万的数据量,一台机器执行起来还是毫无压力的,这时数据倾斜对我们感知不大,只有数据达到一个量级时,一台机器应付不了这么多数据,这时如果发生数据倾斜,最后就很难算出结果。所以就需要我们对数据倾斜的问题进行优化,尽量避免或减轻数

2021-10-16 08:59:05 107

原创 ERROR Shutdown broker because all log dirs in /opt/bdp/kafka/data have failed (kafka.log.LogManager)

Kafka启动失败 看日志 报这个错误解决问题:删除data目录中的数据(重要数据要进行备份)

2021-10-15 20:10:10 560

原创 Entering emergency mode. Exit the shell to continue

问题: 虚拟机 强制关机 再重启 报这个问题解决问题:输入命令:xfs_repair -v -L /dev/dm-0-L 选项指定强制日志清零,强制xfs_repair将日志归零,即使它包含脏数据(元数据更改)。

2021-10-15 19:50:51 230

原创 Redis 搭建详细步骤 以及关闭Redis保护模式

1. 解压安装包tar -zxvf redis-5.0.12.tar.gz -C /opt/bdp/redis解压完 文件里的redis.conf 配置文件很重要2.编译Redis源文件(需要用工具来编译 提前安装gcc软件包先 yum -y install gcc gcc-c++) 执行命令 :make MALLOC=libc 出现这个就代表成功了Hint: It's a good idea to run 'make test' ;)3.进入 cd src 目录 里...

2021-10-14 14:26:03 1468 3

原创 数仓建模之声明粒度 一文读懂什么是粒度 看完保证通透!

声明粒度粒度是说明事实表的每一行表示什么,比如:用户下单的内容放到订单事实表的每一行中 这里的关键是粒度的描述 不能将维度列出来 而代替粒度声明 这一步特别容易被忽略 粒度声明需要达到共识 否则极有可能到下面三四步后返工重来1 确定数据粒度的基本准则数据粒度是指数据仓库中保存数据的细化或综合程度。数据仓库中包含大量数据表,这些数据表中的数据以什么粒度来存储,会对信息系统的多方面产生影响。在做 数据仓库设计时,设计者确定以数据的什么层次作为粒度的划分标准,将直接影响到数据仓库中数据的存储量及查询质

2021-09-15 09:49:39 2926 2

原创 CentOs 7 设置中文

首先进入我们的CentOs 7 操作系统 进入桌面 点击Applications进入后点击System Tools 点进Settings找到Region & Language 点进去设置成中文后点击Done重启后你的CentOs 7 就成中文了...

2021-09-08 11:00:51 776 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除