![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
CDH和大数据组件
CDH集群、及常用的hadoop生态大数据组件总结
fragrans
大数据、产品、运营
展开
-
zookeeper中的zab协议
参考资料。转载 2024-05-22 13:59:46 · 30 阅读 · 0 评论 -
yarn中3种调度器的区别
参考资料。转载 2024-05-03 19:05:22 · 30 阅读 · 0 评论 -
Hbase中的过滤器
hbase中过滤器的介绍以及使用方法,参考资料HBase Filter 过滤器之 Comparator 原理及源码学习 - 周蓬勃 - 博客园前言: 上篇文章 "HBase Filter 过滤器概述" 对HBase过滤器的组成及其家谱进行简单介绍,本篇文章主要对HBase过滤器之比较器作一个补充介绍,也算是HBase Fhttps://www.cnblogs.com/zpb2016/p/12775374.html...转载 2022-03-09 22:05:40 · 284 阅读 · 0 评论 -
Hbase预分区
【大数据基础】hbase预分区的作用_Hadoop_收获啦HBase预分区方法 - 大墨垂杨 - 博客园hbase 预分区与自动分区 - 西瓜哥119 - 博客园hbase预分区总结 - 程序员大本营转载 2022-03-09 21:34:18 · 237 阅读 · 0 评论 -
Hbase学习资料汇总
参考资料hbase预分区总结 - 程序员大本营https://www.pianshen.com/article/44171407568/转载 2022-03-09 21:34:50 · 119 阅读 · 0 评论 -
Hbase数据多版本处理
hbase如何存取多版本数据?_大数据_收获啦HBase中修改存储版本数及版本号查询_vic_torsun的博客-CSDN博客_hbase 版本号Hbase修改默认存储版本数_eagle0912的博客-CSDN博客HBase中修改存储版本数及版本号查询_vic_torsun的博客-CSDN博客_hbase 版本号...转载 2022-03-09 21:24:14 · 601 阅读 · 0 评论 -
hive数据同步至es步骤
1、建立hive表CREATE TABLE `wb_tmp`( `surface` string,`radiation` string,`loader_id` string) ROW FORMAT DELIMITED ...转载 2022-02-07 14:41:01 · 2975 阅读 · 0 评论 -
Flink on yarn模式部署
目录1. 基于docker部署cdh2. 遇到的异常2.1 flink下缺少hadoop相关依赖2.2 jdk7造成的错误3. 启动flink on yarn模式1. 基于docker部署cdh基于Docker搭建CDH单机单节点集群_litlit023的专栏-CSDN博客2. 遇到的异常2.1 flink下缺少hadoop相关依赖基于docker 部署cdn后,启动flink on yarn模式,报了以下错误./bin/yarn-session.sh -n原创 2022-02-02 15:45:32 · 2841 阅读 · 0 评论 -
Hive数据倾斜
1. 什么是数据倾斜数据倾斜,即单个节点任务所处理的数据量远大于同类型任务所处理的数据量,导致该节点成为整个作业的瓶颈,这是分布式系统不可能避免的问题。2. 造成数据倾斜的原因从本质来说,导致数据倾斜有两种原因:一是任务读取大文件,二是任 务需要处理大量相同键的数据。任务需要处理大量相同键的数据,这种情况有以下4种表现形式:(1)数据含有大量无意义的数据,例如空值(NULL)、空字符串等。 (2)含有倾斜数据在进行聚合计算时无法聚合中间结果,大量数据都需要经过Shuffle阶.原创 2022-01-27 07:37:05 · 1596 阅读 · 0 评论 -
CDH客户端部署
目录1、下载cdh parcels包2. 配置环境变量3. 在客户端服务器上配置hosts文件4.参考资料1、下载cdh parcels包下载 CDH-5.9.1-1.cdh5.9.1.p0.4-el7.parcelmkdir -p /opt/cloudera/parcelscd /opt/cloudera/parcels上传刚才的的parcel包至/opt/cloudera/parcels目录tar -zxvfCDH-5.9.1-1.cdh5.9.1.p0.4-el..原创 2022-01-26 21:19:56 · 2467 阅读 · 0 评论 -
Hadoop Yarn调度器的选择和使用
参考资料YARN 调度器 - heaventouch - 博客园Hadoop Yarn调度器的选择和使用 - 知乎转载 2022-01-22 08:24:11 · 107 阅读 · 0 评论 -
hivesql中的concat函数,concat_ws函数,concat_group函数之间的区别
https://www.cnblogs.com/wqbin/p/10266783.htmlhttps://blog.csdn.net/m0_49834705/article/details/111660495https://blog.csdn.net/qq_43665254/article/details/112552005转载 2021-04-18 11:11:52 · 226 阅读 · 0 评论 -
hive中分区取TOPN
目录0. 概述1. 准备数据和表结构2. 几种不同分组取TOPN情况说明2.1 分组-组内排序2.2 分区-组内排序-取topN2.3 不分组-只对某个字段排序2.4 rank() over() 的使用2.5 dense_rank()的使用3. 参考资料0. 概述hive中分组取topN,有3中类型的函数可以用:row_number() over (partition by col01 order by col02 desc ) rank() over (p原创 2021-04-07 19:41:52 · 1599 阅读 · 0 评论 -
Hive常用sql语句总结
目录1. 创建hive表示指定location参数2. DISTRIBUTE BY的使用1. 创建hive表示指定location参数例如下面创建外表的语句,指定了表数据文件保存的hdfs目录,同时指定了hive数据文件的类型create external table if not exists tableName (column01 date,column02 int,column03 string)stored as sequencefileloca..原创 2020-11-09 18:33:59 · 1439 阅读 · 0 评论 -
Prometheus+Grafana监控告警套装
MySQL,Redis,MongoDB这类服务,遇到故障的时候,及时通知,和预警原文地址https://blog.csdn.net/xinxin6193/article/details/112680361转载 2021-02-16 19:09:03 · 145 阅读 · 0 评论 -
Kafka Connect Datagen 创建测试数据生成器
本文总结了关于Kafka Connect Datagen的使用资料,详情可参考下面的链接https://github.com/xushiyan/kafka-connect-datagen/tree/0.1.0/example/quickstarthttps://zeppelin-kafka-connect-datagen.readthedocs.io/en/latest/https://www.cnblogs.com/a00ium/p/10947085.html...原创 2021-01-06 21:54:52 · 1066 阅读 · 3 评论 -
基于Docker搭建CDH单机单节点集群
基于Docker,搭建cdh的单机单节点集群参考资料(1)镜像下载4.4G这个镜像还挺大的,https://hub.docker.com/r/cloudera/quickstart(2)https://blog.csdn.net/eyeofeagle/article/details/85159600原创 2020-12-21 22:49:41 · 1414 阅读 · 0 评论 -
Flink Hadoop Compatibility
目录1. 概述2. 参考地址1. 概述在开发Flink程序时,如果在Flink application中要用到Hadoop的input-/output format,如下图所示,只需引入Hadoop兼容包即可(Hadoop compatibility wrappers)例如Flink官网给出的文档Hadoop 兼容BetaSupport for Hadoop input/output formats is part of theflink-javaandfli...原创 2020-12-19 16:37:28 · 392 阅读 · 2 评论 -
如何贡献hadoop patch
Apache对它的项目开放了一个Jira平台,任何人都可以在Apache Jira中查找该平台记录的一些bug获取其他问题,如果要创建或者评论,就需要创建相应的账户。平时使用apache的项目的时候可能会发现一些存在的bug,这些bug或许在Apache Jira中已经存在,或许在Apache Jira已经解决,也可能在Apache Jira中没有该bug,作为一个开发者,发现问题bug、解决bug是很平常的事,但是有没有想过将发现的bug提交给Apache,或者将解决bug的代码提交给Apach...转载 2020-12-06 14:04:16 · 221 阅读 · 0 评论 -
Hadoop-9710问题
1. 概述IBR:IBR(增量块汇报)jira-9710描述DescriptionWhen a DN has received a block, it immediately sends a block receipt IBR RPC to NN for reporting the block. Even if a DN has received multiple blocks at the same time, it still sends multiple RPCs. It does n原创 2020-12-06 13:54:05 · 133 阅读 · 0 评论