大数据组件
包含hadoop、zk、hbase等大数据常用组件的文章
仰望夜空一万次
记录一切美好事物。
展开
-
数据湖(一)
计算引擎之下、存储之上的新技术。如何定义这类新技术?简单地说,这类新技术是介于上层计算引擎和底层存储格式之间的一个中间层,我们可以把它定义成一种“数据组织格式”,Iceberg 将其称之为“表格式”也是表达类似的含义。它与底层的存储格式(比如 ORC、Parquet 之类的列式存储格式)最大的区别是,它并不定义数据存储方式,而是定义了数据、元数据的组织方式,向上提供统一的“表”的语义。它构建在数据存储格式之上,其底层的数据存储仍然使用 Parquet、ORC 等进行存储。关键点.转载 2021-10-17 14:59:51 · 93 阅读 · 0 评论 -
azkaban编程监控任务超时
从execution_flows表获得具体信息,每一次任务调度,都会在这个表中写入一个有新exec_id的记录。status30 表示 running 执行中70 表示 failed 失败50 表示 success 成功执行获得execution_flows中运行任务的开始时间String sql = "SELECT exec_id,project_id,version,flow_id,submit_user,start_time FROM execution_flows W...原创 2020-09-04 15:19:39 · 1499 阅读 · 3 评论 -
ZooKeeper与CAP理论
CAPCAP 是指:一致性 Consistency、可用性 Availablity、分区容错性 Partition Tolerance一个分布式系统无法同时满足以上三个需求,因此在实际运用时,就要抛弃其中一项。 CAP定理应用:放弃P:放弃P就意味着放弃了扩展性。就是把所有数据放在一个节点上,就不是分布式了 放弃A:系统遇到故障时,在等待时间内系统无法对外提供正常服务,即不可用 放弃C:放弃强一致性,而保持数据的最终一致性。引入时间窗口概念对于分布式系统而言,网络问题是必定会出现的异...转载 2020-09-16 15:08:48 · 490 阅读 · 0 评论 -
Hadoop常用命令
设置hdfs文件的副本为2hdfs dfs -setrep 2 -w /path可以使用正则匹配删除hdfs文件hadoop fs -rm -r /path清空hadoop回收站hdfs dfs -expunge原创 2020-09-23 16:00:54 · 186 阅读 · 0 评论 -
hadoop几个datanode机器间小范围的数据负载均衡
# 获得集群当前datanode间负载均衡可以使用的带宽,单位为byte,当前为1Mbhdfs getconf -confKey dfs.datanode.balance.bandwidthPerSec1048576#改为100Mbhdfs dfsadmin -setBalancerBandwidth 104857600集群平衡的条件,datanode间磁盘使用率相差阈值,区间选择:0~100 。默认为10,调整为20,加速平衡过程结束hdfs balancer -th.原创 2020-08-27 14:13:26 · 293 阅读 · 0 评论