自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 scala 数据类型体系一览图

在 scala 中有一个根类型 Any ,他是所有类的父类.scala中一切皆为对象,分为两大类AnyVal(值类型),AnyRef(引用类型),他们都是Any子类.Null 类型是 scalaNull 类型是 scala的特别类型,它只有一个值 null, 他是 bottom calss ,是 所有 AnyRef 类型的子 类.Nothing类型也是bottomclass,他是所有类的子类...

2020-03-18 15:08:02 212

原创 Apache HBase region 拆分

目录一、描述二、提前分区三、自动分区四、强制分区五、参考连接一、描述在Hbase中split是一个很重要的功能,Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中,这些region会被分配到一个或者多个regionServer中。在自动split策略中,当一个region达到一定的大小就会自动split成两个regio...

2020-03-18 14:59:16 255

原创 Spark深入解读(三)---- 工作模式及角色

目录一、角色描述二、Local本地模式三、standalone模式四、spark on yarn 模式1) Spark on yarn client模式2) Spark on yarn cluster模式五、总结一、角色描述Application: Appliction都是指用户编写的Spark应用程序,其中包括一个Driver功能的代码和分布在集群中多个节点上运行的Execut...

2020-03-11 18:32:28 2896

原创 Spark深入解读(二)---- 工作流程

Spark工作流程1.使用Spark-submit提交代码至服务器上2.创建SparkContext,在SparkContext初始化的时候会创建DAGScheduler和TaskScheduler3.TaskScheduler会启动一个后台进程去集群Master注册Application,申请任务资源,比如CPU,内存等等4.Master接收注册请求后会利用自己的资源调度算法,在Spar...

2020-03-11 18:29:12 183

原创 Spark深入解读(一)---- 基本概念

目录一、Application二、Job三、DAG四、Stage五、Task六、TaskSet七、RDD八、dependency九、Shuffle一、Application使用SparkSubmit提交的个计算应用一个Application中可以触发多次Action,触发一次Action形成一个DAG,一个DAG对应一个Job一个Application中可以有一到多个Jo...

2020-03-11 18:25:32 229

原创 Flink在kafka中Exactly-Once原理解说

Apache Flink中的端到端完全一次处理概述(与Apache Kafka一样!)2017年12月发布的Apache Flink 1.4.0为Flink引入了一个重要的流程处理里程碑:一个名为TwoPhaseCommitSinkFunction(相关的Jira here)的新功能,它提取了两阶段提交协议的通用逻辑,并使得构建结束使用Flink和一系列数据源和接收器(包括Apache Kafk...

2020-02-14 17:41:06 512

原创 Spark机器学习--矩阵的定义——scala版本

目录一、本地向量二、含类标签的点三、稀疏数据Sparse data四、本地矩阵五、分布式矩阵5.1) 面向行的分布式矩阵(RowMatrix)5.2) 行索引矩阵(IndexedRowMatrix)5.3) 三元组矩阵(CoordinateMatrix)一、本地向量本地向量的基类是 Vector,我们提供了两个实现 DenseVector 和 SparseVector。我们建议...

2020-02-14 16:58:16 517

原创 通过fastjson解析json数据工具

目录一、原始数据内容二、通过fastjson解析json数据一、原始数据内容eventLogJson.txt{“u”: {“cookieid”: “HsOorABPB”,“account”: “05289”,“email”: “Fh8h@G4hbi.com”,“phoneNbr”: “20096655112”,“birthday”: “2002-01-17”,“isRegis...

2020-02-14 16:51:47 301

原创 ElasticSearch使用

目录ElasticSearch介绍RESTFulES安装以及相关插件倒排索引ES CRUD APImget 批量获取bluk 批量操作版本控制versionMapping映射基本查询filter查询组合查询集群管理——————————————————————————————–1.ElasticSearch介绍Distributed, scalable, and h...

2020-01-28 10:33:43 684

原创 数据仓库中拉链表的实现

目录一、拉链表功能及应用二、拉链表效果展示三、拉链表案例操作1)拉链建表语句2)第一次全量操作详解3)以后增量操作详解4)整体sql详解一、拉链表功能及应用在有些情况下,为了保持历史的一些状态,需要用拉链表来做,这样做目的在可以保留所有状态的情况下可以节省空间。拉链表适用于以下几种情况吧数据量有点大,表中某些字段有变化,但是呢变化的频率也不是很高,业务需求呢又需要统计这种变化...

2020-01-27 22:49:55 543

原创 HBase的RowKey设计

阅读目录2.1.1 Rowkey长度原则2.1.2 Rowkey散列原则2.1.3 Rowkey唯一原则2.2.1 针对事务数据Rowkey设计2.2.2 针对统计数据的Rowkey设计2.2.3 针对通用数据的Rowkey设计2.2.4 支持多条件查询的RowKey设计1 概述HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结...

2020-03-18 15:02:15 197

原创 Zookeeper:Curator框架应用和常用命令

目录CuratorFramework介绍scala代码体现scala代码结果Linux命令1)CuratorFramework介绍Curator框架提供了一套高级的API, 简化了ZooKeeper的操作。 它增加了很多使用ZooKeeper开发的特性,可以处理ZooKeeper集群复杂的连接管理和重试机制。 这些特性包括:自动化的连接管理: 重新建立到ZooKeeper的连接和重试...

2020-02-02 22:30:56 238

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除