司马彭于晏-CSDN博客

原创 scala 数据类型体系一览图

在 scala 中有一个根类型 Any ,他是所有类的父类.scala中一切皆为对象，分为两大类AnyVal(值类型)，AnyRef(引用类型)，他们都是Any子类.Null 类型是 scalaNull 类型是 scala的特别类型，它只有一个值 null, 他是 bottom calss ,是所有 AnyRef 类型的子类.Nothing类型也是bottomclass,他是所有类的子类...

2020-03-18 15:08:02 212

原创 Apache HBase region 拆分

目录一、描述二、提前分区三、自动分区四、强制分区五、参考连接一、描述在Hbase中split是一个很重要的功能，Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中，这些region会被分配到一个或者多个regionServer中。在自动split策略中，当一个region达到一定的大小就会自动split成两个regio...

2020-03-18 14:59:16 255

原创 Spark深入解读（三）---- 工作模式及角色

目录一、角色描述二、Local本地模式三、standalone模式四、spark on yarn 模式1) Spark on yarn client模式2) Spark on yarn cluster模式五、总结一、角色描述Application: Appliction都是指用户编写的Spark应用程序，其中包括一个Driver功能的代码和分布在集群中多个节点上运行的Execut...

2020-03-11 18:32:28 2896

原创 Spark深入解读（二）---- 工作流程

Spark工作流程1.使用Spark-submit提交代码至服务器上2.创建SparkContext,在SparkContext初始化的时候会创建DAGScheduler和TaskScheduler3.TaskScheduler会启动一个后台进程去集群Master注册Application,申请任务资源，比如CPU，内存等等4.Master接收注册请求后会利用自己的资源调度算法，在Spar...

2020-03-11 18:29:12 183

原创 Spark深入解读（一）---- 基本概念

目录一、Application二、Job三、DAG四、Stage五、Task六、TaskSet七、RDD八、dependency九、Shuffle一、Application使用SparkSubmit提交的个计算应用一个Application中可以触发多次Action，触发一次Action形成一个DAG，一个DAG对应一个Job一个Application中可以有一到多个Jo...

2020-03-11 18:25:32 229

原创 Flink在kafka中Exactly-Once原理解说

Apache Flink中的端到端完全一次处理概述（与Apache Kafka一样！）2017年12月发布的Apache Flink 1.4.0为Flink引入了一个重要的流程处理里程碑：一个名为TwoPhaseCommitSinkFunction（相关的Jira here）的新功能，它提取了两阶段提交协议的通用逻辑，并使得构建结束使用Flink和一系列数据源和接收器（包括Apache Kafk...

2020-02-14 17:41:06 512

原创 Spark机器学习--矩阵的定义——scala版本

目录一、本地向量二、含类标签的点三、稀疏数据Sparse data四、本地矩阵五、分布式矩阵5.1) 面向行的分布式矩阵(RowMatrix)5.2) 行索引矩阵(IndexedRowMatrix)5.3) 三元组矩阵(CoordinateMatrix)一、本地向量本地向量的基类是 Vector,我们提供了两个实现 DenseVector 和 SparseVector。我们建议...

2020-02-14 16:58:16 517

原创通过fastjson解析json数据工具

目录一、原始数据内容二、通过fastjson解析json数据一、原始数据内容eventLogJson.txt{“u”: {“cookieid”: “HsOorABPB”,“account”: “05289”,“email”: “Fh8h@G4hbi.com”,“phoneNbr”: “20096655112”,“birthday”: “2002-01-17”,“isRegis...

2020-02-14 16:51:47 301

原创 ElasticSearch使用

目录ElasticSearch介绍RESTFulES安装以及相关插件倒排索引ES CRUD APImget 批量获取bluk 批量操作版本控制versionMapping映射基本查询filter查询组合查询集群管理——————————————————————————————–1.ElasticSearch介绍Distributed, scalable, and h...

2020-01-28 10:33:43 684

原创数据仓库中拉链表的实现

目录一、拉链表功能及应用二、拉链表效果展示三、拉链表案例操作1）拉链建表语句2）第一次全量操作详解3）以后增量操作详解4）整体sql详解一、拉链表功能及应用在有些情况下，为了保持历史的一些状态，需要用拉链表来做，这样做目的在可以保留所有状态的情况下可以节省空间。拉链表适用于以下几种情况吧数据量有点大，表中某些字段有变化，但是呢变化的频率也不是很高，业务需求呢又需要统计这种变化...

2020-01-27 22:49:55 543

原创 HBase的RowKey设计

阅读目录2.1.1 Rowkey长度原则2.1.2 Rowkey散列原则2.1.3 Rowkey唯一原则2.2.1 针对事务数据Rowkey设计2.2.2 针对统计数据的Rowkey设计2.2.3 针对通用数据的Rowkey设计2.2.4 支持多条件查询的RowKey设计1 概述HBase是一个分布式的、面向列的数据库，它和一般关系型数据库的最大区别是：HBase很适合于存储非结...

2020-03-18 15:02:15 197

原创 Zookeeper：Curator框架应用和常用命令

目录CuratorFramework介绍scala代码体现scala代码结果Linux命令1）CuratorFramework介绍Curator框架提供了一套高级的API，简化了ZooKeeper的操作。它增加了很多使用ZooKeeper开发的特性，可以处理ZooKeeper集群复杂的连接管理和重试机制。这些特性包括：自动化的连接管理: 重新建立到ZooKeeper的连接和重试...

2020-02-02 22:30:56 238

m0_37611613的博客