![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据/架构
文章平均质量分 69
海阔天空&沫语
这个作者很懒,什么都没留下…
展开
-
sqoop导入mysql数据到Hive的各种方案
sqoop 导入到处 mysql-hive 的案例转载 2022-12-13 22:38:21 · 5032 阅读 · 3 评论 -
解决Hive动态分区小文件过多问题
为了支撑相应的业务需求,本次生产环境通过Hive SQL来完成动态插入分区表数据的脚本开发。但是,动态分区的插入往往会伴随产生大量的小文件的发生。而小文件产生过多的影响主要分为以下两种情况转载 2022-10-16 00:24:06 · 2064 阅读 · 0 评论 -
Spark性能优化指南——高级篇
Spark技术栈的高级调优篇转载 2022-07-31 23:05:43 · 381 阅读 · 0 评论 -
Spark性能优化指南——基础篇
Spark技术栈的基础优化方案转载 2022-07-31 23:03:32 · 264 阅读 · 0 评论 -
常见大数据组件启动命令集合
大数据的常见命令原创 2022-06-13 21:16:44 · 865 阅读 · 0 评论 -
zeppelin连接 phoenix 注意事项
zepplelin 连接 phoenix 时,Phoenix 报错:Error: ERROR 726 (43M10): Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled (state=43M10,code=726)..原创 2022-06-07 22:26:15 · 240 阅读 · 0 评论 -
Flink1.13集成Hadoop3.x的解决方法
问题描述Flink1.13.6 如何集成Hadoop-3.3.0通常Flink集群配置好后,还不能直接访问HDFS,因为缺少相关jar包,会弹出无法解析hdfs类型的schema的错误:org.apache.flink.core.fs.UnsupportedFileSystemSchemeException: Could not find a file system implementation for scheme 'hdfs'. The scheme is not directly supp原创 2022-05-22 22:44:15 · 1957 阅读 · 0 评论 -
在 CDH 中调优 Apache Hive on Spark
Spark 上的 Hive 在提供相同功能的同时提供比 MapReduce 上的 Hive 更好的性能。在 Spark 上运行 Hive 不需要更改用户查询。具体来说,完全支持用户定义函数 (UDF),并且大多数与性能相关的配置都使用相同的语义。本主题介绍如何在 Spark 上配置和调整 Hive 以获得最佳性能。本主题假设您的集群由 Cloudera Manager 管理,并且您使用 YARN 作为 Spark 集群管理器。以下部分中描述的示例假设一个 40 主机 YARN 集群,每台主...原创 2022-05-05 12:25:47 · 1405 阅读 · 0 评论 -
Flink 全局快照, 恢复, 二段提交
Flink global snapshot, restore, two-phase commit快照原理chandy Lamport算法的一种变体被称为异步屏障快照容错机制-障碍的实现原理主要是通过不断生成快照来实现。快照主要包含两部分数据,一部分是数据流,另一部分是状态数据。相应的快照机制有两个组成部分: Barrier和State。因为数据在DAG中流动,所以需要满足它以获取快照。在此时间之前的所有数据都被处理,在此时间之后的数据都不被处理.Barrier 原理一个Stream原创 2022-05-01 14:43:21 · 1330 阅读 · 0 评论 -
cloudera时钟同步
cloudera 安装部署,时钟因为宕机、集群重启出现的时钟偏差问题,从而导致有些依赖时钟一致的组件不可用,此时需要校对时钟信息。下面给一个时钟同步的方式,供大家参考:1. 安装 NTPyum install -y ntp2. 配置参数配置/etc/ntp.conf主节点:这里的 192.168.88.2 是集群的网关,主从机器都要保持一致。server 就是同步的服务器地址,优先同步 阿里云 时间从节点:从节点保证和主节点保持一致。3. 启用 nt.原创 2022-04-28 12:53:19 · 1442 阅读 · 0 评论 -
hive数据仓库-bucket分桶
hive中table可以拆分成partition, table和partition可以通过CLUSTERED BY 进一步分bucket,bucket中的数据可以通过SORT BY排序。bucket主要作用:数据sampling 提升某些查询操作效率,例如mapside join 需要特别注意的是:clustered by和sorted by不会影响数据的导入,这意味着,用户必须自己负责数据如何如何导入,包括数据的分桶和排序。 set hive.enforce.bucketing = true 可转载 2022-04-25 22:22:17 · 375 阅读 · 0 评论 -
四万字Hive调优全方位指南(推荐收藏)
本文基本涵盖以下内容: 一、基于Hadoop的数据仓库Hive基础知识 二、HiveSQL语法 三、Hive性能优化 四、Hive性能优化之数据倾斜专题 五、HiveSQL优化十二板斧 六、Hive面试题(一) 七、Hive/Hadoop高频面试点集合(二) 基于Hadoop的数据仓库Hive基础知识Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的转载 2022-04-25 18:28:47 · 695 阅读 · 0 评论 -
flink基础与flink培训——出租车乘车项目
本培训对Apache Flink进行了自以为是的介绍,包括足够让您开始编写可伸缩的流ETL、分析和事件驱动的应用程序,同时忽略了许多(最终重要的)细节。重点是为Flink的状态和时间管理api提供直观的介绍,希望您掌握了这些基础知识后,能够更好地从文档中了解需要了解的其他内容。具体来说,你会学到:- 如何建立一个环境来开发Flink程序- 如何实现流数据处理管道- Flink如何以及为什...翻译 2019-12-31 17:50:08 · 1233 阅读 · 0 评论 -
Kafka常用API命令汇总
Kafka常用API命令汇总0、启动kafka集群kafka-server-start.sh -d config/server.properties1、列出集群里的所有主题。$ kafka-topics.sh --zookeeper node01:2181,node02:2181,node03:2181 --list2、 创建一个叫作my-topic的主题,主题包含8分区,每个分区拥有...原创 2019-12-31 17:10:49 · 476 阅读 · 0 评论 -
flink集群搭建
工作预研中记录的工作笔记供大家指导借鉴。flink集群的搭建和相关hadoop集群安装步骤和运行脚本。直接上代码。安装hadoop集群1、解压缩hadooptar zxvf hadoop-2.7.7.tar.gz -C /usr/2、在 nd-00 ~ nd-02 配置环境变量vim /etc/profileexport HADOOP_HOME=/usr/hadoop-2...原创 2019-05-12 23:01:54 · 241 阅读 · 0 评论 -
运行 Hive
运行 Hive运行 Hive 之前必须保证 HDFS 已经启动,可以使用 start-dfs.sh 来启动,如果之前安装 Hadoop 是已启动,次步骤可略过。从 Hive 2.1 版本开始, 在启动 Hive 之前需运行 schematool 命令来执行初始化操作:schematool -dbType mysql -initSchema启动 Hive,输入命令 Hive>&...原创 2019-05-27 10:58:54 · 432 阅读 · 0 评论 -
业务中台和数据中台
业务中台实现了后端业务资源到前台易用能力的转化。业务共享单元用户中心商品中心交易订单中心评价中心店铺中心搜索中心数据服务中心营销中心数据中台从后台及业务中台将数据流入,完成海量数据的存储、计算、产品化包装过程,构成企业的核心数据能力。比如海量数据进行采集、计算、存储、加工的一系列技术集合,包括数据模型、算法服务、数据产品、数据管理等等,和企业的业务有较强的关联...原创 2019-05-27 14:58:57 · 19225 阅读 · 1 评论 -
flink集群部署和常见问题解惑
安装hadoop集群1、解压缩hadooptar zxvf hadoop-2.7.7.tar.gz -C /usr/2、在 nd-00 ~ nd-02 配置环境变量vim /etc/profileexport HADOOP_HOME=/usr/hadoop-2.7.7export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport PATH=...原创 2019-05-23 20:07:39 · 1535 阅读 · 0 评论 -
kafka如何保证数据不重不漏,无乱序
消息丢失和消息重复,从生产端和消费端来考虑如何保证消息有序消费端重复消费:建立去重表消费端丢失数据:关闭自动提交offset,处理完后再手动提交移位由于在使用kafka的高级API时,消费者会自动每隔一段时间将offset保存到zookeeper上,此时如果刚好将偏移量提交到zookeeper上后,但这条数据还没消费完,机器发生宕机,此时数据就丢失了。解决方法:关闭自动提交,改成...转载 2019-05-31 06:41:31 · 2000 阅读 · 0 评论 -
flink如何动态支持依赖jar包提交
通常我们在编写一个flink的作业的时候,肯定会有依赖的jar包。flink官方希望你将所有的依赖和业务逻辑打成一个fat jar,这样方便提交,因为flink认为你应该对自己的业务逻辑做好单元测试,而不应该把这部分测试工作频繁提交到集群去做。但事实是我们往往不愿意打一个fat jar,我们希望将业务逻辑独立出来,依赖动态提交。可惜的是,flink并不支持这种提交模式。 ...转载 2019-05-13 23:31:46 · 4139 阅读 · 0 评论