CDH大数据
文章平均质量分 89
丰耳
希望参与构建全流程的云原生自动化交付体系建设
展开
-
大数据集群源数据同步之MySql2HIVE增量同步
纯干货,使用canal+kafka+camus一步一步完成MySQL到hive增量更新的全部详细过程原创 2022-09-24 16:05:48 · 1939 阅读 · 0 评论 -
HIVE数据同步Elasticsearch
前言在大数据领域,因数据量级大,使用传统RDMS查询效率在很多场景下远远不能满足需求,虽然HBASE等分布式存储具有高性能、实时读写的能力,但却并没有解决数据的高效检索问题,例如根据特定的几个字段进行组合检索的场景,像HBase这种采用rowkey作为一级索引的方式,就无法满足高效的多条件查询需求。而ES作为分布式全文检索引擎,用以存储HBase索引,就能很好的解决大数据量、多条件复杂、高效查询的问题。演示环境Elasticsearch7.6.2Hive 2.1.1+cdh6.3.2操作步骤下原创 2022-04-02 14:41:42 · 2964 阅读 · 0 评论 -
CDH6.3.2添加spark-sql
前言众所周知,CDH为了推自家的Impala,阉割掉了Spark的spark-sql工具,虽然很多时候我们并不需要spark-sql,但是架不住特殊情况下有使用它的时候,这个根据项目或者团队(个人)情况而异。我这边就是因为项目原因,需要使用spark-sql,因此从网上各种查资料,折腾了好几天,最终在CDH集群上集成了spark-sql,以下操作并不能保证百分百适配你的环境,但思路可供借鉴。集成步骤下载Apache-spark2.4.0因为CDH6.3.2使用的Spark版本是2.4.0,为了避免使原创 2022-02-18 17:56:25 · 4756 阅读 · 13 评论 -
CDH大数据----HUE问题笔记
写在前面:博主环境是CDH6.3.2,所有问题及配置围绕CDH展开1.在HUE中执行hive写操作失败描述:执行动作: 向表中插入数据INSERT into test_01 values(1,'abc123');HUE页面报错: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask。截图:原因查找:原创 2022-01-13 14:45:48 · 1600 阅读 · 0 评论