大数据
文章平均质量分 91
newbei5862
一切皆函数,一切皆方程,世上每一个思想和灵魂都是拟合出来的。
展开
-
flink sql 流 join (上)(转)
1.序篇下面即是文章目录,也对应到本文的结论,小伙伴可以先看结论快速了解本文能给你带来什么帮助:背景及应用场景介绍:join 作为离线数仓中最常见的场景,在实时数仓中也必然不可能缺少它,flink sql 提供的丰富的 join 方式(总结 6 种:regular join,维表 join,temporal join,interval join,array 拍平,table function 函数)对我们满足需求提供了强大的后盾先来一个实战案例:以一个曝光日志 left join 点击日志为案例展开转载 2021-12-15 10:12:43 · 2048 阅读 · 0 评论 -
LSM树详解
LSM树(Log-Structured-Merge-Tree)的名字往往会给初识者一个错误的印象,事实上,LSM树并不像B+树、红黑树一样是一颗严格的树状数据结构,它其实是一种存储结构,目前HBase,LevelDB,RocksDB这些NoSQL存储都是采用的LSM树。LSM树的核心特点是利用顺序写来提高写性能,但因为分层(此处分层是指的分为内存和文件两部分)的设计会稍微降低读性能,但是通过牺牲小部分读性能换来高性能写,使得LSM树成为非常流行的存储结构。1、LSM树的核心思想如上图所示,LSM树有转载 2021-11-19 11:17:05 · 6614 阅读 · 0 评论 -
一文带你了解HBase读取数据详细流程
HBase数据读取流程1、hbase数据读取流程简单描述 一般来说,在描述hbase读取流程的时候,简单的描述如下: 1)、客户端从zookeeper中获取meta表所在的regionserver节点信息 2)、客户端访问meta表所在的regionserver节点,获取到region所在的regionserver信息 3)、客户端访问具体的region所在的regionserver,找到对应的region及store 4)、首先从memstore中读取数据,如果读取到了那么直接将数据转载 2021-11-16 17:04:22 · 5553 阅读 · 0 评论 -
Spark在Windows下的环境搭建
由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故),所以下面的步骤稍显有些啰嗦,老司机大可不必阅读,直接跳过就好。 一.JDK的安装与环境...转载 2019-07-19 02:13:33 · 156 阅读 · 0 评论 -
PyCharm搭建Spark开发环境 + 第一个pyspark程序
一, PyCharm搭建Spark开发环境Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。参照这个配置本地的Spark环境。之后就是配置PyCharm用来开发Spark。本人在这里浪费了不...转载 2019-07-19 02:28:47 · 170 阅读 · 0 评论