大数据企业级实战
文章平均质量分 88
大数据技术在企业中的实战
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
大数据AI
公众号:大数据AI
展开
-
ambari hdp 企业级安装实战
Ambari hdp企业级安装实战原创 2024-01-25 14:43:56 · 343 阅读 · 0 评论 -
Hudi0.14.0 集成 Spark3.2.3(IDEA编码方式)
Hudi0.14.0 集成 Spark3.2.3(IDEA编码方式)原创 2024-01-23 16:41:56 · 414 阅读 · 0 评论 -
Hudi0.14.0集成Spark3.2.3(Spark SQL方式)
Hudi 0.14.0 集成 Spark3.2.3 Spark SQL方式原创 2024-01-23 16:34:26 · 356 阅读 · 0 评论 -
Hudi0.14.0集成Spark3.2.3(Spark Shell方式)
Hudi 0.14.0 集成spark 3.2.3 Spark Shell方式原创 2024-01-23 16:16:57 · 377 阅读 · 0 评论 -
Hive管理UDF详解
Hive 管理UDF函数的方式有:1. Hive Shell add jar2. 辅助jar目录3. 可重载辅助jar目录原创 2024-01-19 14:47:02 · 223 阅读 · 0 评论 -
Hive添加第三方Jar包方式总结
Hive添加第三方jar包方式:1. Hive Shell add jar2. 辅助jar目录3. 可重载辅助Jar目录4. {HIVE_HOME}/auxlib5. {HIVE_HOME}/lib原创 2024-01-19 14:43:56 · 715 阅读 · 0 评论 -
CDH6.3.2企业级安装实战
CDH企业级安装教程原创 2024-01-17 09:55:25 · 219 阅读 · 0 评论 -
Hive调优一文打尽
Hive调优一文打尽原创 2024-01-16 17:56:56 · 188 阅读 · 0 评论 -
Hudi0.14.0最新编译(修订版)
Hudi0.14.0 最新编译(修订版)原创 2024-01-15 17:50:26 · 386 阅读 · 0 评论 -
Hive架构设计
Hive架构设计原创 2024-01-16 17:58:27 · 166 阅读 · 0 评论 -
Hudi metadata table(元数据表)
Metadata表即Hudi元数据表,是一种特殊的Hudi表,对用户隐藏。该表用于存放普通Hudi表的元数据信息。Metadata表包含在普通Hudi表内部,与Hudi表是一一对应关系。原创 2024-01-15 17:34:17 · 520 阅读 · 0 评论 -
一文学会 Apache Zeppelin
一文学会 Apache Zeppelin原创 2023-12-20 15:28:42 · 1795 阅读 · 0 评论 -
OpenLdap HA高可用Mirror Mode模式配置
OpenLdap HA高可用Mirror Mode模式配置。原创 2023-12-15 16:45:50 · 435 阅读 · 0 评论 -
Kafka Avro序列化之三:使用Schema Register实现
Kafka 使用Schema Register实现Avro序列化原创 2023-12-15 10:40:25 · 807 阅读 · 0 评论 -
Kafka Avro序列化之二:使用Twitter的Bijection 类库实现
Kafka使用Twitter的Bijection类库实现Avro序列化原创 2023-12-15 10:39:02 · 846 阅读 · 0 评论 -
Kafka Avro序列化之一:使用自定义序列化
Kafka 使用自定义序列化Avro格式数据原创 2023-12-15 10:37:31 · 999 阅读 · 0 评论 -
Apache Avro编程快速入门
Apahce Avro编程快速入门原创 2023-12-15 10:34:01 · 714 阅读 · 0 评论 -
Centos7下OpenLDAP安装
Centos7下OpenLDAP安装原创 2023-12-15 10:22:31 · 961 阅读 · 0 评论 -
Kylin操作系统下OpenLDAP安装
Kylin操作系统下OpenLDAP安装原创 2023-12-15 10:14:12 · 984 阅读 · 0 评论 -
Kafka Schema介绍
Apache Avro(以下简称 Avro,读音:阿夫罗)是一个数据序列化系统,是一种与编程语言无关的序列化格式,是提供一种共享数据文件的方式。Avro是Hadoop中的一个子项目,Avro是一个基于二进制数据传输高性能的中间件。Avro可以做到将数据进行序列化,适用于远程或本地大批量数据交互。在传输的过程中Avro对数据二进制序列化后节约数据存储空间和网络传输带宽。序列化就是将对象转换成二进制流,相应的反序列化就是将二进制流再转换成对应的对象。原创 2023-12-05 17:05:50 · 1199 阅读 · 0 评论 -
使用jmx_exporter监控Kafka
JMX-Exporter 是 Prometheus 社区提供的一个工具,用来把 JMX 暴露的监控指标数据转换为 Prometheus 可识别的格式。JMX-Exporter 通过 HTTP 服务的方式暴露监控指标数据,Prometheus 通过 HTTP 协议来拉取监控指标数据。启动独立进程。原创 2023-11-21 20:56:32 · 1034 阅读 · 0 评论 -
使用kafka_exporter监控Kafka
prometheus 监控 kafka 常见的有两种开源方案,一种是传统的部署 exporter 的方式,一种是通过 jmx 配置监控,本文将采用kafka_exporter方式实现,相比JMX,其优势在于不需要消耗 JVM资源,指标收集时间从分钟级别降到秒级别,便于大规模集群的监控。原创 2023-11-21 20:54:31 · 2235 阅读 · 0 评论 -
使用JMX监控ZooKeeper和Kafka
Java Management Extensions(JMX)技术是 Java SE 平台的标准功能,提供了一种简单的、标准的监控和管理资源的方式,对于如何定义一个资源给出了明确的结构和设计模式,主要用于监控和管理 Java 应用程序运行状态、设备和资源信息、Java 虚拟机运行情况等信息。并且如下图所示,有关应用程序性能和资源使用情况的详细信息可以从 JMX 指标中导出。如果有任何问题,我们可以借助收集的指标进行诊断,并对系统进行微调以获得最佳性能。原创 2023-11-21 20:53:41 · 1012 阅读 · 0 评论 -
CMAK Kafka可视化管理工具
为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 CMAK(原名Kafka Manager)。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。kafka-manager 项目地址:https://github.com/yahoo/kafka-manager。原创 2023-11-21 20:52:46 · 1105 阅读 · 1 评论 -
UI for Apache Kafka
UI for Apache Kafka原创 2023-11-21 20:51:48 · 1663 阅读 · 0 评论 -
使用JMX监控ZooKeeper和Kafka
使用JMX监控ZooKeeper和Kafka原创 2023-11-21 20:49:04 · 1169 阅读 · 1 评论 -
ZooKeeper监控
从3.6.0之后,Zookeeper自带的Monitor结合Prometheus、Grafana可绘制出丰富的监控图表项。原创 2023-11-06 10:08:50 · 395 阅读 · 0 评论 -
ZooKeeper调优
ZooKeeper生产调优实战原创 2023-11-06 10:01:56 · 726 阅读 · 0 评论 -
Hudi 0.14.0 编译
Hudi 0.14.0 最新编译原创 2023-10-24 17:07:54 · 635 阅读 · 8 评论 -
拉链表概述
缓慢变化维度,简称SCD (Slowly Changing Dimensions)和拉链表都是为了存储非静态数据的历史变化状态。拉链表有开链和闭链过程,总一条数据明确表示最新状态(例如常见的 end_date=9999-12-31 00:00:00),针对的大都是事实表。缓慢变化维,没有开链与闭链过程,只是单纯的记录数据的变化过程,解决的也都是维度表的存储,反映维度的数据历史演进过程。原创 2023-08-16 15:38:13 · 464 阅读 · 0 评论 -
Flink入门 04.原理初探
1 Flink角色分工在实际生产中,Flink 都是以集群在运行,在运行的过程中包含了两类进程。JobManager它扮演的是集群管理者的角色,负责调度任务、协调 checkpoints、协调故障恢复、收集 Job 的状态信息,并管理 Flink 集群中的从节点 TaskManager。TaskManager实际负责执行计算的 Worker,在其上执行 Flink Job 的一组 Task;TaskManager 还是所在节点的管理员,它负责把该节点上的服务器信息比如内存、磁盘、任务运原创 2021-09-01 20:48:20 · 174 阅读 · 0 评论 -
Flink入门 03.入门案例
1 前置说明1.1 APIFlink提供了多个层次的API供开发者使用,越往上抽象程度越高,使用起来越方便;越往下越底层,使用起来难度越大注意:在Flink1.12时支持流批一体,DataSet API已经不推荐使用了,所以课程中除了个别案例使用DataSet外,后续其他案例都会优先使用DataStream流式API,既支持无界数据处理/流处理,也支持有界数据处理/批处理!当然Table&SQL-API会单独学习https://ci.apache.org/projects/fli原创 2021-09-01 20:39:54 · 159 阅读 · 0 评论 -
Flink入门 02.安装部署
Flink支持多种安装模式Local—本地单机模式,学习测试时使用Standalone—独立集群模式,Flink自带集群,开发测试环境使用StandaloneHA—独立集群高可用模式,Flink自带集群,开发测试环境使用On Yarn—计算资源统一由Hadoop YARN管理,生产环境使用1 Local本地模式1.1 原理Flink程序由JobClient进行提交JobClient将作业提交给JobManagerJobManager负责协调资源分配和作业执原创 2021-09-01 20:20:53 · 382 阅读 · 0 评论 -
Flink入门 01.概述
1 实时即未来如今的我们正生活在新一次的信息革命浪潮中,5G、物联网、智慧城市、工业4.0、新基建……等新名词层出不穷,唯一不变的就是变化!对于我们所学习的大数据来说更是这样:数据产生的越来越快、数据量越来越大,数据的来源越来越千变万化,数据中隐藏的价值规律更是越来越被重视!数字化时代的未来正在被我们创造!历史的发展从来不会一帆风顺,随着大数据时代的发展,海量数据和多种业务的实时处理需求激增,比如:实时监控报警系统、实时风控系统、实时推荐系统等,传统的批处理方式和早期的流式处理框架因其自身的局限性原创 2021-09-01 19:49:15 · 259 阅读 · 0 评论 -
Flink Application Mode
随着流式计算的兴起,实时分析成为现代商业的利器。越来越多的平台和公司基于Apache Flink 构建他们的实时计算平台,并saas化。这些平台旨在通过简化应用的提交来降低最终用户的使用负担。通常的做法是,会提供一个诸如管理平台的web程序,方便使用者提交应用,并且该平台集成了一些权限,监控等内容。这个管理平台我可以叫作部署服务。但是现在这些平台遇到一个大问题是部署服务是一个消耗资源比较大的服务,并且很难计算出实际资源限制。比如,如果我们取负载的平均值,则可能导致部署服务的资源真实所需的值远远大于限制值转载 2021-08-31 18:07:41 · 1724 阅读 · 0 评论 -
Flink1.12 cdh版本编译
注意:从Flink 1.11开始,Flink项目不再正式支持使用Flink -shade -hadoop-2-uber版本。建议用户通过HADOOP_CLASSPATH提供Hadoop依赖项。Flink 在启动Flink组件(如Client、JobManager或TaskManager)前,将环境变量HADOOP_CLASSPATH的值添加到classpath中。但大多数Hadoop发行版和云环境不会默认设置HADOOP_CLASSPATH这个环境变量,所以如果Hadoop类路径应该由Flink选择,.原创 2021-08-31 18:01:11 · 421 阅读 · 0 评论 -
CDH6.3.4集成tez0.9.2
编译环境准备安装JDK[root@song ~]# tar -zxvf jdk-8u271-linux-x64.tar.gz [root@song ~]# mv jdk1.8.0_271/ /usr/local/java[root@song ~]# vim /etc/profile# set java envexport JAVA_HOME=/usr/local/javaexport PATH=$JAVA_HOME/bin:$PATH[root@song ~]# source /etc/pr原创 2021-08-24 21:27:40 · 487 阅读 · 0 评论 -
Alluxio运维
Alluxio命令alluxio fsadmin# 查看服务状态alluxio fsadmin report# 查看挂掉的服务ipalluxio fsadmin report capacity -lostalluxio getConf# 查看配置参数alluxio getConf --masterAlluxio运维实战Worker节点挂掉查看服务状态,发现有一台worker节点丢失查看丢失的节点是哪一台$ alluxio fsadmin report capacit原创 2021-08-24 21:18:54 · 189 阅读 · 0 评论 -
Alluxio与CDH组件集成
一、运行 CDH MapReduce1. 配置core-site.xml您需要将以下属性添加到中core-site.xml。只有使用HA模式的群集才需要ZooKeeper属性。同样,只有使用嵌入式日志的HA群集才需要嵌入式日志属性。<property> <name>fs.alluxio.impl</name> <value>alluxio.hadoop.FileSystem</value></property><原创 2021-08-24 21:15:54 · 278 阅读 · 0 评论 -
Alluxio源码编译适配CDH
一、源码编译确保你安装了Java(JDK 8或更高版本)以及Maven3.3.9及以上[root@song build]# git clone https://github.com/Alluxio/alluxio.git[root@song build]# cd alluxio/[root@song alluxio]# git checkout v2.4.1-1[root@song alluxio]# mvn clean install -Phadoop-3 -Dhadoop.version=原创 2021-08-14 11:18:58 · 296 阅读 · 0 评论