翻译
码基
码基
展开
-
Spark的产生背景和基础知识 Spark: The Definitive Guide
学习笔记Apache Spark:一个集成的计算引擎,一组库,用于在计算机集群上并行处理数据。翻译 2019-07-14 13:57:10 · 606 阅读 · 0 评论 -
sort group和hash group
说明:数据库的分组算法有两种,sort group和hash group。前者需要会所有数据进行全局排序,然后在迭代每一条记录时,凡是与上一条记录不一致的,就划分为一个新组。后者则是直接对分组列计算hash值,相同的值会被hash同一组。MapReduce编程中reduce端shuffle就是典型的sort group。貌似现在传统型数据库的分组,以及hive在map端分组都采用的是hash...原创 2019-07-09 13:04:29 · 1268 阅读 · 0 评论 -
HBase整理
Table有很多行组成。RowHBase的行由行键和一个或多个包含值列组成。行按照字典顺序排序。行键的设计原则是:相关的行存储位置应当尽量接近。如果使用域名作为行键,你可能需要把域名反过来存储,这样所有Apache的域名都会彼此相邻。Column由列族和列限定名组成,两者通过:冒号分隔。Column Family列族在物理上并置了一组列和值。每一个列族都有一系列存储特性可以设置,比如...翻译 2019-07-10 22:18:16 · 385 阅读 · 0 评论 -
hive 随机抽样 实用,有助于快速分析数据分布情况和可能的数据倾斜
Sampling Syntax 抽样语法Sampling Bucketized Table 分桶表抽样table_sample: TABLESAMPLE (BUCKET x OUT OF y [ON colname])The TABLESAMPLE clause allows the users to write queries for samples of the data instead...翻译 2019-07-06 10:13:58 · 1094 阅读 · 0 评论 -
Zookeeper的原子广播协议
Zookeeper Atomic Broadcast (ZAB)目的ZooKeeper通过原子广播协议:保证ZooKeeper复制行为的执行的先后顺序;管理leader的选举,以及leader和node宕机后的恢复。定义leader和followers(领导者和跟从者)— 在ZooKeeper集群中,一个节点从当leader角色,其余的从当followers角色。leader负责...翻译 2019-07-17 14:32:08 · 827 阅读 · 0 评论 -
Getting to Grips with ZooKeeper(Zookeeper入门必备,深入浅出)
The previous chapter discussed the requirements of distributed applications at a high level and argued that they often have common requirements for coordination. We used the master-worker example, whi...翻译 2019-08-04 14:31:25 · 667 阅读 · 0 评论